論文の概要: Grounded Test-Time Adaptation for LLM Agents
- arxiv url: http://arxiv.org/abs/2511.04847v1
- Date: Thu, 06 Nov 2025 22:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.606109
- Title: Grounded Test-Time Adaptation for LLM Agents
- Title(参考訳): LLMエージェントの接地試験時間適応
- Authors: Arthur Chen, Zuxin Liu, Jianguo Zhang, Akshara Prabhakar, Zhiwei Liu, Shelby Heinecke, Silvio Savarese, Victor Zhong, Caiming Xiong,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 75.62784644919803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based agents struggle to generalize to novel and complex environments, such as unseen websites or new sets of functions, due to a fundamental mismatch between their pre-training and test-time conditions. This challenge stems from two distinct failure modes: a syntactic misunderstanding of environment-specific components like observation formats, and a semantic misunderstanding of state-transition dynamics, which are only revealed at test time. To address these issues, we propose two distinct and complementary strategies for adapting LLM agents by leveraging environment-specific information available during deployment. First, an online distributional adaptation method parameterizes environmental nuances by learning a lightweight adaptation vector that biases the model's output distribution, enabling rapid alignment with an environment response format. Second, a deployment-time dynamics grounding method employs a persona-driven exploration phase to systematically probe and learn the environment's causal dynamics before task execution, equipping the agent with a nonparametric world model. We evaluate these strategies across diverse agentic benchmarks, including function calling and web navigation. Our empirical results show the effectiveness of both strategies across all benchmarks with minimal computational cost. We find that dynamics grounding is particularly effective in complex environments where unpredictable dynamics pose a major obstacle, demonstrating a robust path toward more generalizable and capable LLM-based agents. For example, on the WebArena multi-site split, this method increases the agent's success rate from 2% to 23%.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、事前学習とテスト時間条件の根本的なミスマッチのため、目に見えないWebサイトや新しい関数セットのような、新しくて複雑な環境への一般化に苦慮している。
この課題は、観察フォーマットのような環境固有のコンポーネントの構文的誤解と、テスト時にのみ明らかにされる状態遷移ダイナミクスのセマンティック誤解という、2つの異なる障害モードに起因している。
これらの課題に対処するために, 環境特化情報を活用することで, LLMエージェントを適応するための2つの個別かつ補完的な戦略を提案する。
まず、オンライン分布適応法は、モデル出力分布をバイアスする軽量適応ベクトルを学習し、環境応答形式と迅速に一致させることにより、環境のニュアンスをパラメータ化する。
第2に、配置時動的接地法では、タスク実行前の環境の因果ダイナミクスを体系的に探索し、学習するためにペルソナ駆動探索フェーズを用いて、エージェントに非パラメトリック世界モデルを適用する。
我々はこれらの戦略を,関数呼び出しやWebナビゲーションを含む多様なエージェントベンチマークで評価する。
実験結果から,計算コストを最小に抑えた全ベンチマークにおける両戦略の有効性が示された。
予測不可能な力学が大きな障害となる複雑な環境において、動的グラウンドリングは特に有効であり、より一般化可能で有能なLSMエージェントへの堅牢な経路を示す。
例えば、WebArenaのマルチサイト分割では、エージェントの成功率が2%から23%に向上する。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。