論文の概要: Predicting vs. Acting: A Trade-off Between World Modeling & Agent Modeling
- arxiv url: http://arxiv.org/abs/2407.02446v1
- Date: Tue, 2 Jul 2024 17:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:27:11.828285
- Title: Predicting vs. Acting: A Trade-off Between World Modeling & Agent Modeling
- Title(参考訳): 予測と行動:世界モデリングとエージェントモデリングのトレードオフ
- Authors: Margaret Li, Weijia Shi, Artidoro Pagnoni, Peter West, Ari Holtzman,
- Abstract要約: RLHF準拠のLMは、ベンチマークと長文生成の両方で前例のない能力を示している。
RLHFモデルが人間との対話を目的としたエージェントモデルになるにつれ、彼らは世界モデリングを失うように思われる。
我々は、コヒーレントな長文生成を行うために、暗黙の青写真を通してランダム性を制限したRLHFモデルを提案する。
- 参考スコア(独自算出の注目度): 34.3520410136648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RLHF-aligned LMs have shown unprecedented ability on both benchmarks and long-form text generation, yet they struggle with one foundational task: next-token prediction. As RLHF models become agent models aimed at interacting with humans, they seem to lose their world modeling -- the ability to predict what comes next in arbitrary documents, which is the foundational training objective of the Base LMs that RLHF adapts. Besides empirically demonstrating this trade-off, we propose a potential explanation: to perform coherent long-form generation, RLHF models restrict randomness via implicit blueprints. In particular, RLHF models concentrate probability on sets of anchor spans that co-occur across multiple generations for the same prompt, serving as textual scaffolding but also limiting a model's ability to generate documents that do not include these spans. We study this trade-off on the most effective current agent models, those aligned with RLHF, while exploring why this may remain a fundamental trade-off between models that act and those that predict, even as alignment techniques improve.
- Abstract(参考訳): RLHF準拠のLMは、ベンチマークと長文テキスト生成の両方で前例のない能力を示しているが、彼らは1つの基本的なタスクに苦労している。
RLHFモデルが人間との対話を目的としたエージェントモデルになるにつれ、RLHFが適応するBase LMの基本的なトレーニング目標である、任意のドキュメントで次に何が起こるかを予測する能力である、世界モデリングが失われているように思われる。
このトレードオフを実証的に示すことに加えて、コヒーレントなロングフォーム生成を行うために、RLHFモデルは暗黙の青写真を通してランダム性を制限する。
特に、RLHFモデルは、同じプロンプトのために複数の世代にまたがって共起するアンカースパンの集合に確率を集中させ、テキストの足場として機能すると同時に、これらのスパンを含まないドキュメントを生成するモデルの能力を制限する。
我々は、このトレードオフを、最も効果的な現在のエージェントモデル、すなわちRLHFと整合するモデルについて検討し、また、アライメント技術が改良されても、行動するモデルと予測するモデルとの基本的なトレードオフのままである可能性を探る。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:01:54Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Non-autoregressive Conditional Diffusion Models for Time Series
Prediction [3.9722979176564763]
TimeDiffは、高品質な時系列予測を実現する非自己回帰拡散モデルである。
我々はTimeDiffが既存の時系列拡散モデルより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T08:53:59Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。