論文の概要: From Word to World: Can Large Language Models be Implicit Text-based World Models?
- arxiv url: http://arxiv.org/abs/2512.18832v1
- Date: Sun, 21 Dec 2025 17:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.522145
- Title: From Word to World: Can Large Language Models be Implicit Text-based World Models?
- Title(参考訳): 言葉から世界へ:大規模言語モデルはテキストベースの世界モデルに必須か?
- Authors: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang,
- Abstract要約: エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
- 参考スコア(独自算出の注目度): 82.47317196099907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.
- Abstract(参考訳): エージェント強化学習は、経験駆動のスケーリングにますます依存するが、現実の環境は適応性がなく、カバー範囲が限られており、スケールが困難である。
世界モデルは、シミュレーションされた経験を通して学習効率を改善する潜在的な方法を提供するが、大きな言語モデルがこの役割を確実に果たすことができるのか、どのような条件下では、エージェントに有意義な利益をもたらすのかは不明だ。
本研究では,これらの質問をテキストベースの環境において研究し,言語モデルを再解釈するための制御された設定を相互作用下での次世代の予測として提供する。
LLMベースの世界モデルを評価するための3段階のフレームワークを紹介します。
(i)忠実さと一貫性。
(二)スケーラビリティ、堅牢性、及び
(三)エージェントユーティリティ。
5つの代表的な環境にまたがって、十分に訓練された世界モデルは一貫性のある潜在状態を保ち、データとモデルサイズを予測可能とし、アクション検証、合成軌道生成、ウォームスタート強化学習によりエージェント性能を向上させる。
一方、これらの成果は行動のカバレッジと環境の複雑さに大きく依存しており、世界モデリングがエージェント学習を効果的にサポートする場合の明確な境界線を規定している。
関連論文リスト
- Language-conditioned world model improves policy generalization by reading environmental descriptions [20.07554058793324]
実世界の人間と効果的に対話するためには,エージェントが環境のダイナミクスを記述する言語を理解することが重要である。
本研究では,言語条件付き世界モデルを環境との相互作用によって学習するモデルに基づく強化学習手法を提案する。
LED-WMでトレーニングされたポリシーは、新しいダイナミクスや言語によって記述された見えないゲームに対して、より効果的に一般化されていることを示す。
論文 参考訳(メタデータ) (2025-11-28T06:13:27Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。
我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文 参考訳(メタデータ) (2024-09-18T19:28:04Z) - Improving Large Language Model (LLM) fidelity through context-aware grounding: A systematic approach to reliability and veracity [0.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)アプリケーションにおいて、ますます高度でユビキタスなものになりつつある。
本稿では,テクストモデルにおける文脈的接地のための新しい枠組みについて述べる。
本研究は, 医療, 法制度, 社会サービスなどのセンシティブな分野におけるLCMの展開に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-08-07T18:12:02Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。