論文の概要: Agent-Environment Alignment via Automated Interface Generation
- arxiv url: http://arxiv.org/abs/2505.21055v1
- Date: Tue, 27 May 2025 11:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.6134
- Title: Agent-Environment Alignment via Automated Interface Generation
- Title(参考訳): 自動インタフェース生成によるエージェント環境アライメント
- Authors: Kaiming Liu, Xuanyu Lei, Ziyue Wang, Peng Li, Yang Liu,
- Abstract要約: 大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
エージェントの内部の期待と、発行されたアクションの影響と、環境における実際の状態遷移との間には、しばしばミスマッチが発生します。
我々は,環境の静的情報とエージェントに返されるステップワイズ観測の両方を強化するインタフェースであるtextbfALIGNを提案する。
- 参考スコア(独自算出の注目度): 10.469261669159367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents have shown impressive reasoning capabilities in interactive decision-making tasks. These agents interact with environment through intermediate interfaces, such as predefined action spaces and interaction rules, which mediate the perception and action. However, mismatches often happen between the internal expectations of the agent regarding the influence of its issued actions and the actual state transitions in the environment, a phenomenon referred to as \textbf{agent-environment misalignment}. While prior work has invested substantially in improving agent strategies and environment design, the critical role of the interface still remains underexplored. In this work, we empirically demonstrate that agent-environment misalignment poses a significant bottleneck to agent performance. To mitigate this issue, we propose \textbf{ALIGN}, an \underline{A}uto-A\underline{l}igned \underline{I}nterface \underline{G}e\underline{n}eration framework that alleviates the misalignment by enriching the interface. Specifically, the ALIGN-generated interface enhances both the static information of the environment and the step-wise observations returned to the agent. Implemented as a lightweight wrapper, this interface achieves the alignment without modifying either the agent logic or the environment code. Experiments across multiple domains including embodied tasks, web navigation and tool-use, show consistent performance improvements, with up to a 45.67\% success rate improvement observed in ALFWorld. Meanwhile, ALIGN-generated interface can generalize across different agent architectures and LLM backbones without interface regeneration. Code and experimental results are available at https://github.com/THUNLP-MT/ALIGN.
- Abstract(参考訳): 大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
これらのエージェントは、事前に定義されたアクション空間や相互作用ルールなどの中間インターフェイスを介して環境と相互作用し、知覚とアクションを媒介する。
しかしながら、エージェントの内部的な期待と環境における実際の状態遷移、すなわち「textbf{agent-environment misalignment」と呼ばれる現象との間には、しばしばミスマッチが発生する。
以前の作業はエージェント戦略と環境設計の改善に多大な投資をしてきたが、インターフェースの重要な役割はまだ解明されていない。
本研究では,エージェント環境のミスアライメントがエージェント性能に重大なボトルネックをもたらすことを実証的に示す。
この問題を緩和するために、インターフェースを充実させることで、誤認識を緩和する、 \textbf{ALIGN}, an \underline{A}uto-A\underline{l}igned \underline{I}nterface \underline{G}e\underline{n}eration frameworkを提案する。
具体的には、ALIGN生成インタフェースは、環境の静的情報とエージェントに返される段階的な観察の両方を強化する。
軽量なラッパーとして実装され、エージェントロジックや環境コードを変更することなくアライメントを実現する。
具体化タスク、Webナビゲーション、ツールユースを含む複数のドメインにわたる実験は、一貫したパフォーマンス改善を示し、ALFWorldで観測された最大45.67\%の成功率改善を示している。
一方、ALIGNで生成されたインタフェースは、異なるエージェントアーキテクチャとLLMバックボーンにまたがって、インタフェースの再生なしに一般化することができる。
コードと実験結果はhttps://github.com/THUNLP-MT/ALIGN.comで公開されている。
関連論文リスト
- MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents [7.4159044558995335]
動的コンテキスト管理システムとコード生成を統合する新しいフレームワークであるMOSS(llM-oriented Operating System Simulation)を紹介する。
フレームワークの中核は、最小限の知識原則を強制するために、インバージョン・オブ・コントロールコンテナとデコレータを併用する。
我々は,このフレームワークがエージェント開発における効率性と能力をいかに向上させるかを示し,チューリング完全エージェントへの移行におけるその優位性を強調した。
論文 参考訳(メタデータ) (2024-09-24T14:30:21Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Affordable Generative Agents [16.372072265248192]
AGA(Affordable Generative Agents)は、エージェント環境とエージェント間の両方のレベルで、信頼性と低コストのインタラクションの生成を可能にするフレームワークである。
私たちのコードは、https://github.com/AffordableGenerative-Agents/Affordable-Generative-Agentsで公開されています。
論文 参考訳(メタデータ) (2024-02-03T06:16:28Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following [142.25438780561603]
本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
論文 参考訳(メタデータ) (2023-10-18T21:43:07Z) - Offline Imitation Learning with Variational Counterfactual Reasoning [17.344961438658427]
エージェントは、オフライン模倣学習(IL)において、オンライン環境を付加せずに最適な専門家の行動ポリシーを学習することを目的としている。
本稿では,アンダーライン・アンダーライン・インダーライン・インダーラインLearning with UnderlineCounterfactual Data UnderlineAugmentation (OILCA) by doing counterfactual Inferenceを提案する。
論文 参考訳(メタデータ) (2023-10-07T06:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。