Fugu-MT 論文翻訳(概要): On a Connection Between Imitation Learning and RLHF

論文の概要: On a Connection Between Imitation Learning and RLHF

arxiv url: http://arxiv.org/abs/2503.05079v1
Date: Fri, 07 Mar 2025 01:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.845131
Title: On a Connection Between Imitation Learning and RLHF
Title（参考訳）: 模倣学習とRLHFの関係について
Authors: Teng Xiao, Yige Yuan, Mingxiao Li, Zhengyu Chen, Vasant G Honavar,
Abstract要約: 本研究は、模倣学習の観点から、大規模言語モデルの好みデータとのアライメントを研究する。人間のフィードバックRLHFからの強化学習と模倣学習(IL)との密接な理論的関係を確立し、RLHFが優先データ分布に対して暗黙的に模倣学習を行うことを明らかにする。模倣学習の目的を直接最適化する原則的フレームワークであるDILを提案する。
参考スコア（独自算出の注目度）: 20.117266095253292
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work studies the alignment of large language models with preference data from an imitation learning perspective. We establish a close theoretical connection between reinforcement learning from human feedback RLHF and imitation learning (IL), revealing that RLHF implicitly performs imitation learning on the preference data distribution. Building on this connection, we propose DIL, a principled framework that directly optimizes the imitation learning objective. DIL provides a unified imitation learning perspective on alignment, encompassing existing alignment algorithms as special cases while naturally introducing new variants. By bridging IL and RLHF, DIL offers new insights into alignment with RLHF. Extensive experiments demonstrate that DIL outperforms existing methods on various challenging benchmarks.
Abstract（参考訳）: 本研究は、模倣学習の観点から、大規模言語モデルの好みデータとのアライメントを研究する。人間のフィードバックRLHFからの強化学習と模倣学習(IL)との密接な理論的関係を確立し、RLHFが優先データ分布に対して暗黙的に模倣学習を行うことを明らかにする。この接続に基づいて,模倣学習の目的を直接最適化する原則的フレームワークであるDILを提案する。 DILは、アライメントに関する統一的な模倣学習の視点を提供し、既存のアライメントアルゴリズムを特別なケースとして含みながら、新しい変種を自然に導入する。 ILとRLHFをブリッジすることで、DILはRLHFとの整合性に関する新たな洞察を提供する。大規模な実験により、DILは様々な挑戦的なベンチマークで既存のメソッドよりも優れていることが示された。

関連論文リスト

Learning Dynamics in RL Post-Training for Language Models [2.538209532048867]
我々は、教師あり学習において研究されてきたが、RLでは未探索である視点から、RLポストトレーニングの学習ダイナミクスを分析した。特徴表現の変動性に制限があることから,RL更新がモデル信頼性を体系的に向上させる可能性が示唆された。これらの知見に感化されて、簡単な2段階学習戦略である分類器第一強化学習(CF-RL)を提案する。
論文参考訳（メタデータ） (2026-01-08T07:32:15Z)
Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
The Hidden Link Between RLHF and Contrastive Learning [56.45346439723488]
RLHF(Reinforcement Learning from Human Feedback)とDPO(Simple Direct Preference Optimization)は相互情報(MI)の観点から解釈可能であることを示す。このフレームワーク内では、RLHFとDPOの両方を、ベースモデルから派生した正と負のサンプルに基づいて対照的な学習を行う方法として解釈することができる。そこで本稿では,DPO で観測される選択的傾向の後期的低下を軽減するための相互情報最適化 (MIO) を提案する。
論文参考訳（メタデータ） (2025-06-27T18:51:25Z)
Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文参考訳（メタデータ） (2025-05-10T16:55:03Z)
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。教師付き微調整(SFT)とRLの組み合わせにより,事前学習したdLLMを推論モデルに適応するフレームワークであるd1を提案する。 d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-16T16:08:45Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文参考訳（メタデータ） (2024-05-23T14:53:54Z)
Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文参考訳（メタデータ） (2024-02-27T18:52:19Z)
Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文参考訳（メタデータ） (2024-02-07T16:15:59Z)
Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-18T18:58:42Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
ArCL: Enhancing Contrastive Learning with Augmentation-Robust Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-02T09:26:20Z)
Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文参考訳（メタデータ） (2023-02-11T03:35:13Z)
Task-Free Continual Learning via Online Discrepancy Distance Learning [11.540150938141034]
本稿では,来訪したサンプルとモデルトレーニングに利用可能な情報全体との差分距離に基づく一般化境界を提供する,新しい理論解析フレームワークを開発する。この理論モデルに着想を得て,混合モデルに対する動的成分展開機構,すなわちオンライン離散距離学習(ODDL)によって実現された新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-10-12T20:44:09Z)
Federated Ensemble Model-based Reinforcement Learning in Edge Computing [21.840086997141498]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための分散機械学習パラダイムである。モデルベースRLとアンサンブル知識蒸留をFLに効果的に組み込む新しいFRLアルゴリズムを提案する。具体的には、FLと知識蒸留を利用して、クライアント向けの動的モデルのアンサンブルを作成し、環境と相互作用することなく、単にアンサンブルモデルを使用することでポリシーを訓練する。
論文参考訳（メタデータ） (2021-09-12T16:19:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。