論文の概要: Beyond Training Objectives: Interpreting Reward Model Divergence in
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.08164v4
- Date: Wed, 7 Feb 2024 11:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 12:09:29.827371
- Title: Beyond Training Objectives: Interpreting Reward Model Divergence in
Large Language Models
- Title(参考訳): トレーニング対象を超えて:大規模言語モデルにおける逆モデル多様性の解釈
- Authors: Luke Marks, Amir Abdullah, Clement Neo, Rauno Arike, Philip Torr, Fazl
Barez
- Abstract要約: 人間のフィードバックからの強化学習によって微調整された大規模言語モデル(LLM)は、より広くデプロイされている。
我々は、高退化世代をもたらすLLMに起こる変化を指すために、$textitImplicit Reward Model$ (IRM) という用語を造った。
- 参考スコア(独自算出の注目度): 8.15890412446096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) fine-tuned by reinforcement learning from human
feedback (RLHF) are becoming more widely deployed. We coin the term
$\textit{Implicit Reward Model}$ (IRM) to refer to the changes that occur to an
LLM during RLHF that result in high-reward generations. We interpret IRMs, and
measure their divergence from the RLHF reward model used in the fine-tuning
process that induced them. By fitting a linear function to an LLM's IRM, a
reward model with the same type signature as the RLHF reward model is
constructed, allowing for direct comparison. Additionally, we validate our
construction of the IRM through cross-comparison with classifications of
features generated by an LLM based on their relevance to the RLHF reward model.
Better comprehending IRMs can help minimize discrepencies between LLM behavior
and training objectives, which we believe to be an essential component of the
$\textit{safety}$ and $\textit{alignment}$ of LLMs.
- Abstract(参考訳): 人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、より広くデプロイされている。
我々は、RLHF 中に LLM に起こる変化が高次世代をもたらすことを示すために、$\textit{Implicit Reward Model}$ (IRM) という用語を造った。
我々は、IRMを解釈し、それらを誘導する微調整プロセスで使用されるRLHF報酬モデルから、それらのばらつきを測定する。
LLMのIRMに線形関数を適用することにより、RLHF報酬モデルと同じ型シグネチャを持つ報酬モデルを構築し、直接比較することができる。
さらに,RLHF報酬モデルとの関連性に基づき,LLMが生成する特徴の分類と相互比較によるIRMの構築を検証した。
このことは、$\textit{safety}$と$\textit{alignment}$ of LLMsの重要なコンポーネントであると考えています。
関連論文リスト
- Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [89.9648814145473]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。
本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文 参考訳(メタデータ) (2024-08-21T15:54:17Z) - FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。
両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。
直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文 参考訳(メタデータ) (2024-05-02T17:54:54Z) - LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。