論文の概要: DEPO: Dual-Efficiency Preference Optimization for LLM Agents
- arxiv url: http://arxiv.org/abs/2511.15392v1
- Date: Wed, 19 Nov 2025 12:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.802551
- Title: DEPO: Dual-Efficiency Preference Optimization for LLM Agents
- Title(参考訳): DEPO:LLMエージェントのデュアル効率優先最適化
- Authors: Sirui Chen, Mengshi Zhao, Lei Xu, Yuying Zhao, Beier Zhu, Hanwang Zhang, Shengjie Zhao, Chaochao Lu,
- Abstract要約: 本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
- 参考スコア(独自算出の注目度): 75.6723341304463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have greatly improved their reasoning and decision-making abilities when deployed as agents. Richer reasoning, however, often comes at the cost of longer chain of thought (CoT), hampering interaction efficiency in real-world scenarios. Nevertheless, there still lacks systematic definition of LLM agent efficiency, hindering targeted improvements. To this end, we introduce dual-efficiency, comprising (i) step-level efficiency, which minimizes tokens per step, and (ii) trajectory-level efficiency, which minimizes the number of steps to complete a task. Building on this definition, we propose DEPO, a dual-efficiency preference optimization method that jointly rewards succinct responses and fewer action steps. Experiments on WebShop and BabyAI show that DEPO cuts token usage by up to 60.9% and steps by up to 26.9%, while achieving up to a 29.3% improvement in performance. DEPO also generalizes to three out-of-domain math benchmarks and retains its efficiency gains when trained on only 25% of the data. Our project page is at https://opencausalab.github.io/DEPO.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、エージェントとしてデプロイされる際の推論と意思決定能力を大幅に改善している。
しかし、よりリッチな推論は、しばしばより長い思考連鎖(CoT)のコストを伴い、現実世界のシナリオにおける相互作用効率を阻害する。
それでも、LLMエージェントの効率の体系的な定義が欠けており、目標とする改善を妨げている。
この目的のために、我々は二重効率を導入し、構成する。
(i)ステップ単位のトークンを最小限にするステップレベルの効率、及び
(ii) 軌道レベルの効率は、タスクを完了するためのステップの数を最小限にする。
この定義に基づいて、簡潔な応答とより少ないアクションステップを共同で報酬する二重効率優先最適化手法であるDEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
DEPOはまた、領域外ベンチマークを3つに一般化し、25%のデータでトレーニングした場合の効率向上を維持している。
プロジェクトページはhttps://opencausalab.github.io/DEPO.orgにある。
関連論文リスト
- WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization [46.33639431414019]
大規模言語モデルは機能的に正しいソリューションを生成するが、コード効率が不足することが多い。
この問題に対処する新しいテストタイム反復最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-29T12:14:29Z) - SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models [17.483183039447564]
本稿では,タスク関連パラメータを選択的に保持し,推論オーバーヘッドを低減する訓練不要プルーニング手法であるSparse Expert Activation Pruning (SEAP)を紹介する。
実験の結果,SEAPは競争精度を維持しながら計算オーバーヘッドを著しく低減することがわかった。
論文 参考訳(メタデータ) (2025-03-10T17:59:03Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。