論文の概要: Agent-Environment Alignment via Automated Interface Generation
- arxiv url: http://arxiv.org/abs/2505.21055v1
- Date: Tue, 27 May 2025 11:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.6134
- Title: Agent-Environment Alignment via Automated Interface Generation
- Title(参考訳): 自動インタフェース生成によるエージェント環境アライメント
- Authors: Kaiming Liu, Xuanyu Lei, Ziyue Wang, Peng Li, Yang Liu,
- Abstract要約: 大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
エージェントの内部の期待と、発行されたアクションの影響と、環境における実際の状態遷移との間には、しばしばミスマッチが発生します。
我々は,環境の静的情報とエージェントに返されるステップワイズ観測の両方を強化するインタフェースであるtextbfALIGNを提案する。
- 参考スコア(独自算出の注目度): 10.469261669159367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents have shown impressive reasoning capabilities in interactive decision-making tasks. These agents interact with environment through intermediate interfaces, such as predefined action spaces and interaction rules, which mediate the perception and action. However, mismatches often happen between the internal expectations of the agent regarding the influence of its issued actions and the actual state transitions in the environment, a phenomenon referred to as \textbf{agent-environment misalignment}. While prior work has invested substantially in improving agent strategies and environment design, the critical role of the interface still remains underexplored. In this work, we empirically demonstrate that agent-environment misalignment poses a significant bottleneck to agent performance. To mitigate this issue, we propose \textbf{ALIGN}, an \underline{A}uto-A\underline{l}igned \underline{I}nterface \underline{G}e\underline{n}eration framework that alleviates the misalignment by enriching the interface. Specifically, the ALIGN-generated interface enhances both the static information of the environment and the step-wise observations returned to the agent. Implemented as a lightweight wrapper, this interface achieves the alignment without modifying either the agent logic or the environment code. Experiments across multiple domains including embodied tasks, web navigation and tool-use, show consistent performance improvements, with up to a 45.67\% success rate improvement observed in ALFWorld. Meanwhile, ALIGN-generated interface can generalize across different agent architectures and LLM backbones without interface regeneration. Code and experimental results are available at https://github.com/THUNLP-MT/ALIGN.
- Abstract(参考訳): 大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
これらのエージェントは、事前に定義されたアクション空間や相互作用ルールなどの中間インターフェイスを介して環境と相互作用し、知覚とアクションを媒介する。
しかしながら、エージェントの内部的な期待と環境における実際の状態遷移、すなわち「textbf{agent-environment misalignment」と呼ばれる現象との間には、しばしばミスマッチが発生する。
以前の作業はエージェント戦略と環境設計の改善に多大な投資をしてきたが、インターフェースの重要な役割はまだ解明されていない。
本研究では,エージェント環境のミスアライメントがエージェント性能に重大なボトルネックをもたらすことを実証的に示す。
この問題を緩和するために、インターフェースを充実させることで、誤認識を緩和する、 \textbf{ALIGN}, an \underline{A}uto-A\underline{l}igned \underline{I}nterface \underline{G}e\underline{n}eration frameworkを提案する。
具体的には、ALIGN生成インタフェースは、環境の静的情報とエージェントに返される段階的な観察の両方を強化する。
軽量なラッパーとして実装され、エージェントロジックや環境コードを変更することなくアライメントを実現する。
具体化タスク、Webナビゲーション、ツールユースを含む複数のドメインにわたる実験は、一貫したパフォーマンス改善を示し、ALFWorldで観測された最大45.67\%の成功率改善を示している。
一方、ALIGNで生成されたインタフェースは、異なるエージェントアーキテクチャとLLMバックボーンにまたがって、インタフェースの再生なしに一般化することができる。
コードと実験結果はhttps://github.com/THUNLP-MT/ALIGN.comで公開されている。
関連論文リスト
- AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - What Do Agents Learn from Trajectory-SFT: Semantics or Interfaces? [32.72487312750579]
最小限の書き直し環境インタフェースによるインタフェース依存の診断のためのプロトコルレベルの評価拡張であるPIPEを提案する。
AgentBenchとAgentGymの16の環境と、さまざまなオープンソースおよびAPIベースのエージェントから、PIPEは、trajectory-SFTがインターフェイスショートカットを大幅に増幅することを明らかにした。
さらに、トレーニング時間インタフェースの嗜好を定量化する対等なエイリアスに基づく計量であるInterface Reliance(IR)を導入する。
論文 参考訳(メタデータ) (2026-02-02T04:02:03Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - Agent models: Internalizing Chain-of-Action Generation into Reasoning models [15.954047804223379]
我々は、emphChain-of-Action(CoA)の発生を内部化するemphLarge Agent Models(LAMs)を配置する。
提案するAutoCoAフレームワークは,教師付き微調整(SFT)と強化学習(RL)を組み合わせたものである。
主なコンポーネントは、ステップレベルのアクショントリガー、軌道レベルのCoA、実際の環境相互作用コストを低減するための内部世界モデルである。
論文 参考訳(メタデータ) (2025-03-09T12:19:47Z) - MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents [7.4159044558995335]
動的コンテキスト管理システムとコード生成を統合する新しいフレームワークであるMOSS(llM-oriented Operating System Simulation)を紹介する。
フレームワークの中核は、最小限の知識原則を強制するために、インバージョン・オブ・コントロールコンテナとデコレータを併用する。
我々は,このフレームワークがエージェント開発における効率性と能力をいかに向上させるかを示し,チューリング完全エージェントへの移行におけるその優位性を強調した。
論文 参考訳(メタデータ) (2024-09-24T14:30:21Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Affordable Generative Agents [16.372072265248192]
AGA(Affordable Generative Agents)は、エージェント環境とエージェント間の両方のレベルで、信頼性と低コストのインタラクションの生成を可能にするフレームワークである。
私たちのコードは、https://github.com/AffordableGenerative-Agents/Affordable-Generative-Agentsで公開されています。
論文 参考訳(メタデータ) (2024-02-03T06:16:28Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following [142.25438780561603]
本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
論文 参考訳(メタデータ) (2023-10-18T21:43:07Z) - Offline Imitation Learning with Variational Counterfactual Reasoning [17.344961438658427]
エージェントは、オフライン模倣学習(IL)において、オンライン環境を付加せずに最適な専門家の行動ポリシーを学習することを目的としている。
本稿では,アンダーライン・アンダーライン・インダーライン・インダーラインLearning with UnderlineCounterfactual Data UnderlineAugmentation (OILCA) by doing counterfactual Inferenceを提案する。
論文 参考訳(メタデータ) (2023-10-07T06:52:18Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。