Fugu-MT 論文翻訳(概要): Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments

論文の概要: Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments

arxiv url: http://arxiv.org/abs/2505.17616v1
Date: Fri, 23 May 2025 08:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.9264
Title: Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments
Title（参考訳）: ランウェイは恥ずかしいが助けになる: 身体環境における大規模言語モデルベースエージェントの早期排他行動について
Authors: Qingyu Lu, Liang Ding, Siyi Cao, Xuebo Liu, Kanjian Zhang, Jinxia Zhang, Dacheng Tao,
Abstract要約: 大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
参考スコア（独自算出の注目度）: 55.044159987218436
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Agents powered by large language models (LLMs) have demonstrated strong planning and decision-making capabilities in complex embodied environments. However, such agents often suffer from inefficiencies in multi-turn interactions, frequently trapped in repetitive loops or issuing ineffective commands, leading to redundant computational overhead. Instead of relying solely on learning from trajectories, we take a first step toward exploring the early-exit behavior for LLM-based agents. We propose two complementary approaches: 1. an $\textbf{intrinsic}$ method that injects exit instructions during generation, and 2. an $\textbf{extrinsic}$ method that verifies task completion to determine when to halt an agent's trial. To evaluate early-exit mechanisms, we introduce two metrics: one measures the reduction of $\textbf{redundant steps}$ as a positive effect, and the other evaluates $\textbf{progress degradation}$ as a negative effect. Experiments with 4 different LLMs across 5 embodied environments show significant efficiency improvements, with only minor drops in agent performance. We also validate a practical strategy where a stronger agent assists after an early-exit agent, achieving better performance with the same total steps. We will release our code to support further research.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用したエージェントは、複雑な実施環境において、強力な計画と意思決定能力を示す。しかし、そのようなエージェントは、しばしばマルチターン相互作用の非効率性に悩まされ、繰り返しループに閉じ込められたり、非効率的なコマンドを発行したりすることで、冗長な計算オーバーヘッドが生じる。トラジェクトリーからの学習のみに頼るのではなく、LSMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出した。我々は2つの補完的アプローチを提案する。 1. a $\textbf{intrinsic}$メソッド。 2.$\textbf{extrinsic}$メソッドは、エージェントのトライアルをいつ停止するかを決定するタスク補完を検証する。早期終了メカニズムを評価するために, 正の効果として$\textbf{redundant steps}$を, 負の効果として$\textbf{progress degradation}$を評価する。 5つの環境にまたがる4つの異なるLLM実験では, エージェント性能が低下し, 大幅な効率向上がみられた。また、より強力なエージェントが早期退避エージェントを補助し、同じステップでより優れたパフォーマンスを達成する実践的戦略を検証した。さらなる研究を支援するためにコードを公開します。

関連論文リスト

Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
Cracking the Code of Action: a Generative Approach to Affordances for Reinforcement Learning [33.790048240113165]
本研究では,専門家の行動に限定的あるいは全くアクセスできない低データ体制について考察する。我々は、Generative Affordances$(textbf$textttCoGA$)$として$textbfCodeを提案する。エージェントが考慮しなければならないアクションの数を大幅に削減することで、MiniWob++ベンチマークで幅広いタスクを実演する。
論文参考訳（メタデータ） (2025-04-24T06:20:08Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。本稿では, 種々のシステム構造の耐震性について考察する。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。 1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文参考訳（メタデータ） (2024-04-26T04:55:35Z)
ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。法律の様式における代理人軌道の AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文参考訳（メタデータ） (2024-03-21T17:43:44Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback-based Self-Correction [18.383499080327542]
環境フィードバックに基づく自己補正手法ERASERを提案する。実験の結果、QueryAgentは以前の数ショットメソッドよりも特に優れていた。このアプローチは、実行時、クエリオーバヘッド、API呼び出しコストなど、効率性の面で優れています。
論文参考訳（メタデータ） (2024-03-18T15:39:14Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。