論文の概要: Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents
- arxiv url: http://arxiv.org/abs/2606.05558v1
- Date: Thu, 04 Jun 2026 01:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.465576
- Title: Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents
- Title(参考訳): LLMエージェントのオフライン評価のための自己回帰拡散世界モデル
- Authors: Kaixuan Liu, Guojun Xiong, Weinan Zhang, Shengpu Tang,
- Abstract要約: マルチターン対話環境における大規模言語モデル(LLM)エージェントの評価は高価でリスクが高い。
提案手法は, プリコンパイルされた軌道から新たなLCMエージェントポリシーの性能を推定する評価フレームワークであるADWMを提案する。
- 参考スコア(独自算出の注目度): 35.37126280179998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language model (LLM) agents in multi-turn interactive environments is expensive and risky, as it requires online environment interaction. We propose ADWM (Autoregressive Diffusion World Model), an evaluation framework that estimates the performance of a new LLM agent policy purely from pre-collected trajectories. The core idea is to learn a latent diffusion world model that simulates how the environment responds to the evaluation policy, without ever executing it in the real environment. Existing diffusion-based OPE methods guide full trajectories in a single pass by jointly diffusing states and actions, an assumption that breaks down for LLM agents whose actions are discrete text that must be sampled from the policy after observing the environment. Unlike autoregressive world models that suffer from compounding errors, ADWM models each transition as an independent denoising process, enabling reliable step-by-step rollouts where the world model and agent alternate in causal order. Crucially, the LLM agent under evaluation directly guides the diffusion generation at each step via a policy-conditioned score function, ensuring that simulated trajectories accurately reflect its decision-making patterns. Empirically, ADWM achieves accurate value estimates and evaluation reliability across diverse multi-turn agent tasks, demonstrating its promise as a practical framework for offline LLM agent evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントをマルチターン対話環境で評価することは、オンライン環境の相互作用を必要とするため、高価でリスクが高い。
本稿では,事前選択された軌道からLLMエージェントポリシーの性能を純粋に推定する評価フレームワークADWM(Autoregressive Diffusion World Model)を提案する。
中心となる考え方は、実際の環境で実行することなく、環境が評価ポリシーにどう反応するかをシミュレートする潜伏拡散世界モデルを学ぶことである。
既存の拡散に基づくOPE法は、環境観察後にポリシーからサンプリングされなければならない個別のテキストであるLCMエージェントを分解する仮定である、状態と動作を共同拡散させることで、単一パス内の完全な軌道を導出する。
複合的なエラーに苦しむ自己回帰的世界モデルとは異なり、ADWMは各トランジションを独立な分極プロセスとしてモデル化し、世界モデルとエージェントが因果順序で交互にロールアウトする信頼できるステップバイステップのロールアウトを可能にする。
重要なことに、評価対象のLCMエージェントは、ポリシー条件付きスコア関数を介して各ステップでの拡散生成を直接誘導し、シミュレーションされた軌道がその決定パターンを正確に反映することを保証する。
実験的にADWMは多様なマルチターンエージェントタスク間で正確な値推定と評価信頼性を実現し、オフラインのLLMエージェント評価のための実践的なフレームワークとしての可能性を実証した。
関連論文リスト
- COMAP: Co-Evolving World Models and Agent Policies for LLM Agents [14.918267305899619]
COMAPは、クローズドループインタラクションを通じてテキストワールドモデルとエージェントポリシーを共進化させる新しいフレームワークである。
各決定ステップにおいて、世界モデルは、候補行動に対する将来の状態フィードバックを予測し、エージェントは、このフィードバックの信頼性を推定して、将来の状態リフレクションを行う。
結果として生じるオンライン軌道は、自己蒸留によって世界モデルを更新するために使用され、エージェントの進化する相互作用分布によく一致する。
論文 参考訳(メタデータ) (2026-06-01T15:21:17Z) - LLM Active Alignment: A Nash Equilibrium Perspective [34.54084293479338]
我々は,大規模言語モデルの振る舞いを予測・操るゲーム理論フレームワークを開発した。
エージェントは、どのグループと整合するかを積極的に戦略的に選択し、解釈可能で行動的な政策クラスを得る。
論文 参考訳(メタデータ) (2026-02-06T16:26:03Z) - Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending [3.939989712024268]
コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。
既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。
多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:16:17Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。