Fugu-MT 論文翻訳(概要): Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders

論文の概要: Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2310.08164v1
Date: Thu, 12 Oct 2023 09:36:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 12:13:01.665565
Title: Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders
Title（参考訳）: スパースオートエンコーダを用いたRLHF修飾言語モデルの逆モデル解釈
Authors: Luke Marks, Amir Abdullah, Luna Mendez, Rauno Arike, Philip Torr, Fazl Barez
Abstract要約: 本稿では,RLHFを用いた大規模言語モデルにおける学習報酬関数の解釈手法を提案する。自己エンコーダ隠れ空間を比較することにより、学習した報酬モデルの精度を反映した特徴を識別する。これは、学習した報酬を解釈するためのスパースオートエンコーダの最初の応用である。
参考スコア（独自算出の注目度）: 8.15890412446096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) aligned to human preferences via reinforcement learning from human feedback (RLHF) underpin many commercial applications. However, how RLHF impacts LLM internals remains opaque. We propose a novel method to interpret learned reward functions in RLHF-tuned LLMs using sparse autoencoders. Our approach trains autoencoder sets on activations from a base LLM and its RLHF-tuned version. By comparing autoencoder hidden spaces, we identify unique features that reflect the accuracy of the learned reward model. To quantify this, we construct a scenario where the tuned LLM learns token-reward mappings to maximize reward. This is the first application of sparse autoencoders for interpreting learned rewards and broadly inspecting reward learning in LLMs. Our method provides an abstract approximation of reward integrity. This presents a promising technique for ensuring alignment between specified objectives and model behaviors.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)からの強化学習を通じて人間の好みに合わせている。しかし、RLHFがLLMの内部に与える影響は不透明である。スパースオートエンコーダを用いたRLHF調整LDMにおける学習報酬関数の解釈法を提案する。我々のアプローチは、ベースLLMとそのRLHF調整バージョンからのアクティベーションに基づいてオートエンコーダセットを訓練する。自動エンコーダ隠れ空間を比較することで,学習報酬モデルの精度を反映した特徴を識別する。これを定量化するために、調整されたLLMがトークン逆写像を学習して報酬を最大化するシナリオを構築する。これは、学習報酬を解釈し、llmにおける報酬学習を広く検査するためのスパースオートエンコーダの最初の応用である。本手法は報酬整合性の抽象的近似を提供する。これは、特定の目的とモデル行動の整合性を確保するための有望なテクニックである。

関連論文リスト

Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。 410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文参考訳（メタデータ） (2025-07-21T17:29:21Z)
LLM-Generated Feedback Supports Learning If Learners Choose to Use It [1.4843690728082002]
大規模な言語モデル(LLM)は、フィードバックを生成するためにますます使われていますが、学習への影響は未調査です。本研究では,オンデマンドLLM説明フィードバックが7つのシナリオベース授業における学習にどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-06-20T13:59:14Z)
Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文参考訳（メタデータ） (2025-05-21T17:48:16Z)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳（メタデータ） (2025-02-11T08:05:56Z)
Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T18:25:35Z)
From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [89.9648814145473]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文参考訳（メタデータ） (2024-09-03T07:01:37Z)
LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文参考訳（メタデータ） (2024-08-21T15:54:17Z)
FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文参考訳（メタデータ） (2024-05-02T17:54:54Z)
LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。 Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文参考訳（メタデータ） (2023-12-31T21:18:16Z)
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文参考訳（メタデータ） (2023-12-04T00:46:11Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。