論文の概要: Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds
- arxiv url: http://arxiv.org/abs/2509.15915v1
- Date: Fri, 19 Sep 2025 12:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.155522
- Title: Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds
- Title(参考訳): 世界モデルとしての基盤モデル:テキストベースグリッドワールドにおける基礎研究
- Authors: Remo Sasso, Michelangelo Conserva, Dominik Jeurissen, Paulo Rauber,
- Abstract要約: ファンデーションモデル(FM)は、幅広い知識と推論能力を持つため、サンプル効率を改善するための自然な候補である。
我々は,FMの事前知識を活かした基礎世界モデル(FWM)を用いて,シミュレーションインタラクションによるエージェントの訓練と評価を行う。
第2に、意思決定にFMの推論能力を利用する基礎エージェント(FA)について検討する。
- 参考スコア(独自算出の注目度): 2.9165586612027234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning from scratch has shown impressive results in solving sequential decision-making tasks with efficient simulators, real-world applications with expensive interactions require more sample-efficient agents. Foundation models (FMs) are natural candidates to improve sample efficiency as they possess broad knowledge and reasoning capabilities, but it is yet unclear how to effectively integrate them into the reinforcement learning framework. In this paper, we anticipate and, most importantly, evaluate two promising strategies. First, we consider the use of foundation world models (FWMs) that exploit the prior knowledge of FMs to enable training and evaluating agents with simulated interactions. Second, we consider the use of foundation agents (FAs) that exploit the reasoning capabilities of FMs for decision-making. We evaluate both approaches empirically in a family of grid-world environments that are suitable for the current generation of large language models (LLMs). Our results suggest that improvements in LLMs already translate into better FWMs and FAs; that FAs based on current LLMs can already provide excellent policies for sufficiently simple environments; and that the coupling of FWMs and reinforcement learning agents is highly promising for more complex settings with partial observability and stochastic elements.
- Abstract(参考訳): スクラッチからの強化学習は、効率的なシミュレーターで逐次決定タスクを解くという驚くべき結果を示しているが、高価な相互作用を持つ現実世界のアプリケーションは、よりサンプリング効率の良いエージェントを必要とする。
ファンデーションモデル(FM)は,広い知識と推論能力を有するため,サンプル効率を向上させるための自然な候補である。
本稿では,2つの有望な戦略を予測し,評価する。
まず,FMの事前知識を生かした基礎世界モデル(FWM)を用いて,シミュレーションインタラクションによるエージェントの訓練と評価を行う。
第2に、意思決定にFMの推論能力を利用する基礎エージェント(FA)について検討する。
我々は,現在の大規模言語モデル(LLM)に適合するグリッドワールド環境のファミリにおいて,両方のアプローチを実証的に評価する。
以上の結果から,LLMの改善はFWMやFAの改善につながり,現在のLLMをベースとしたFAは,十分にシンプルな環境において優れたポリシを提供することが可能であり,FWMと強化学習エージェントの結合は,部分的可観測性や確率的要素を備えたより複雑な設定に大いに期待できることが示唆された。
関連論文リスト
- Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models [95.6332110724999]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。
Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。
本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。
コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-02-14T17:12:20Z) - The Fusion of Large Language Models and Formal Methods for Trustworthy AI Agents: A Roadmap [12.363424584297974]
本稿では、次世代の信頼できるAIシステムを推進するためのロードマップを概説する。
我々は、FMがLLMがより信頼性が高く、正式に認定された出力を生成するのにどのように役立つかを示す。
私たちはこの統合が、ソフトウェアエンジニアリングプラクティスの信頼性と効率性の両方を高める可能性があることを認めています。
論文 参考訳(メタデータ) (2024-12-09T14:14:21Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。