論文の概要: A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals
- arxiv url: http://arxiv.org/abs/2502.10482v1
- Date: Fri, 14 Feb 2025 01:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:05.755419
- Title: A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals
- Title(参考訳): クロスアテンション信号を用いた微調整大言語モデルの自己改善強化学習手法
- Authors: Andrew Kiruluta, Andreas Lemos, Priscilla Burity,
- Abstract要約: 本稿では,ループフィードバックにおいて人間に依存しない大規模言語モデルのための新しい強化学習フレームワークを提案する。
代わりに、我々のアプローチでは、モデル自体内のクロスアテンション信号を使用して、自己教師付き報酬を導き出す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose a novel reinforcement learning framework for post training large language models that does not rely on human in the loop feedback. Instead, our approach uses cross attention signals within the model itself to derive a self supervised reward, thereby guiding iterative fine tuning of the model policy. By analyzing how the model attends to the input prompt during generation, we construct measures of prompt coverage, focus, and coherence. We then use these measures to rank or score candidate responses, providing a reward signal that encourages the model to produce well aligned, on topic text. In empirical comparisons against standard policy gradient methods and RL fine tuning with synthetic preference models, our method shows significant gains in prompt relevance and consistency over a non RL baseline. While it does not yet match the performance of fully human supervised RLHF systems, it highlights an important direction for scaling alignment with minimal human labeling. We provide a detailed analysis, discuss potential limitations, and outline future work for combining cross-attention based signals with smaller amounts of human feedback.
- Abstract(参考訳): 本稿では,ループフィードバックに人間に依存しない大規模言語モデルをポストトレーニングするための新しい強化学習フレームワークを提案する。
その代わり,本手法では,モデル自体の相互注意信号を用いて自己指導型報酬を導出し,モデルポリシーの反復的微調整を導出する。
モデルが生成中の入力プロンプトにどのように対応するかを分析することで、私たちは、即時カバレッジ、フォーカス、一貫性の尺度を構築します。
次に、これらの指標を用いて候補回答のランク付けやスコア付けを行い、トピックテキスト上でモデルが適切に整列するように促す報奨信号を提供する。
標準方針勾配法およびRL微調整法と合成選好モデルとの実証的な比較において,本手法は非RLベースラインに対する相互関係と整合性において有意な向上を示した。
完全に制御されたRLHFシステムの性能とはまだ一致していないが、最小限の人間ラベルでアライメントをスケールするための重要な方向性を強調している。
本稿では,人的フィードバックの少ないクロスアテンションに基づく信号と,より詳細な分析,潜在的な制限の議論,今後の課題について概説する。
関連論文リスト
- DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:01:54Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - Training a Helpful and Harmless Assistant with Reinforcement Learning
from Human Feedback [8.409764908043396]
人からのフィードバックからの好みのモデリングと強化学習を微調整言語モデルに適用し、補助的アシスタントとして機能させる。
このアライメントトレーニングにより,ほぼすべてのNLP評価の性能が向上することがわかった。
オンライントレーニングの反復的なモードについて検討し、人間のフィードバックデータを用いて毎週のケイデンスで好みモデルとRLポリシーを更新する。
論文 参考訳(メタデータ) (2022-04-12T15:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。