論文の概要: Iterative Deployment Improves Planning Skills in LLMs
- arxiv url: http://arxiv.org/abs/2512.24940v1
- Date: Wed, 31 Dec 2025 16:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.696209
- Title: Iterative Deployment Improves Planning Skills in LLMs
- Title(参考訳): 反復的デプロイメントはLLMの計画スキルを改善する
- Authors: Augusto B. Corrêa, Yoav Gelberg, Luckeciano C. Melo, Ilia Shumailov, André G. Pereira, Yarin Gal,
- Abstract要約: 大規模言語モデル (LLM) の反復的展開は, 結果のモデルの性質を著しく変化させることができることを示す。
このメカニズムを様々な計画領域でテストすることにより、計画スキルの大幅な改善を観察する。
次に, 反復的展開が外ループにおける強化学習(RL)訓練を効果的に実施することを示す理論的解析を行った。
- 参考スコア(独自算出の注目度): 36.668436209940516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that iterative deployment of large language models (LLMs), each fine-tuned on data carefully curated by users from the previous models' deployment, can significantly change the properties of the resultant models. By testing this mechanism on various planning domains, we observe substantial improvements in planning skills, with later models displaying emergent generalization by discovering much longer plans than the initial models. We then provide theoretical analysis showing that iterative deployment effectively implements reinforcement learning (RL) training in the outer-loop (i.e. not as part of intentional model training), with an implicit reward function. The connection to RL has two important implications: first, for the field of AI safety, as the reward function entailed by repeated deployment is not defined explicitly, and could have unexpected implications to the properties of future model deployments. Second, the mechanism highlighted here can be viewed as an alternative training regime to explicit RL, relying on data curation rather than explicit rewards.
- Abstract(参考訳): 大規模言語モデル (LLMs) の反復的展開は, ユーザが事前にキュレートしたデータに基づいて微調整し, 結果として得られるモデルの性質を著しく変えることができることを示す。
このメカニズムを様々な計画領域で検証することにより、計画スキルの大幅な改善が観察され、後のモデルでは初期モデルよりもはるかに長い計画を発見することで創発的な一般化が示される。
次に, 反復的展開は, 意図的モデルトレーニングの一部としてではなく, ループ外における強化学習(RL)訓練を効果的に実施し, 暗黙的な報奨機能を備えていることを示す理論的解析を行った。
第一に、AI安全性の分野では、繰り返しデプロイによって引き起こされる報酬関数が明示的に定義されておらず、将来のモデルデプロイメントの特性に予期せぬ影響をもたらす可能性があるためである。
第二に、ここで強調されているメカニズムは、明示的な報酬ではなく、データキュレーションに依存して、明示的なRLに対する代替のトレーニングシステムと見なすことができる。
関連論文リスト
- Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models [45.523937630646394]
本研究では,モデルベース強化学習における新たなパラダイムであるSFP予測・アズ・プランニング(SFP)を提案する。
SFPは、多様な高時間将来の状態をシミュレートし、「想像に基づく」環境シミュレーションを可能にする新しい世界モデルを構築している。
論文 参考訳(メタデータ) (2025-10-05T03:57:38Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。