論文の概要: DebFlow: Automating Agent Creation via Agent Debate
- arxiv url: http://arxiv.org/abs/2503.23781v1
- Date: Mon, 31 Mar 2025 06:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.294426
- Title: DebFlow: Automating Agent Creation via Agent Debate
- Title(参考訳): DebFlow: エージェントによるエージェント生成の自動化
- Authors: Jinwei Su, Yinghui Xia, Ronghua Shi, Jianhui Wang, Jianuo Huang, Yijin Wang, Tianyu Shi, Yang Jingsong, Lewei He,
- Abstract要約: DebFlowは、リフレクションを最適化し、統合して改善するための議論のメカニズムを使用するフレームワークである。
提案手法は,HotpotQA,MATH,ALFWorldを含む6つのベンチマークデータセットで評価した。
トレーニング中、我々のフレームワークは最先端のベースラインと比較してリソース消費を37%削減します。
- 参考スコア(独自算出の注目度): 3.7606626616500947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong potential and impressive performance in automating the generation and optimization of workflows. However, existing approaches are marked by limited reasoning capabilities, high computational demands, and significant resource requirements. To address these issues, we propose DebFlow, a framework that employs a debate mechanism to optimize workflows and integrates reflexion to improve based on previous experiences. We evaluated our method across six benchmark datasets, including HotpotQA, MATH, and ALFWorld. Our approach achieved a 3\% average performance improvement over the latest baselines, demonstrating its effectiveness in diverse problem domains. In particular, during training, our framework reduces resource consumption by 37\% compared to the state-of-the-art baselines. Additionally, we performed ablation studies. Removing the Debate component resulted in a 4\% performance drop across two benchmark datasets, significantly greater than the 2\% drop observed when the Reflection component was removed. These findings strongly demonstrate the critical role of Debate in enhancing framework performance, while also highlighting the auxiliary contribution of reflexion to overall optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ワークフローの生成と最適化を自動化する上で、強力な可能性と優れたパフォーマンスを示している。
しかし、既存のアプローチは、限られた推論能力、高い計算要求、重要なリソース要求によって特徴付けられる。
これらの問題に対処するために、ワークフローを最適化し、以前の経験に基づいて改善するために反射を統合する、議論のメカニズムを用いるフレームワークであるDebFlowを提案する。
提案手法は,HotpotQA,MATH,ALFWorldを含む6つのベンチマークデータセットで評価した。
提案手法は,最新のベースラインよりも平均3倍の性能向上を実現し,多様な問題領域においてその有効性を実証した。
特に、トレーニング中、我々のフレームワークは最先端のベースラインと比較してリソース消費を37 %削減します。
また,アブレーション研究も行った。
Debateコンポーネントを取り除いた結果、2つのベンチマークデータセットでパフォーマンスが4\%低下した。
これらの知見は,フレームワークのパフォーマンス向上にDebateが重要な役割を担っていることを強く示し,また全体の最適化に対する反射の補助的貢献を強調した。
関連論文リスト
- DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - HuixiangDou2: A Robustly Optimized GraphRAG Approach [11.91228019623924]
グラフベースのRetrieval-Augmented Generation (GraphRAG)は、動的検索のためのグラフとして構造化することで、この問題に対処する。
堅牢に最適化されたGraphRAGフレームワークであるHixiangDou2を紹介する。
具体的には、二重レベル検索の有効性を活用し、32kコンテキストでその性能を最適化する。
論文 参考訳(メタデータ) (2025-03-09T06:20:24Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization [51.280919773837645]
エージェントワークフロー最適化のための高性能フレームワークであるScoreFlowを開発した。
ScoreFlowは、量的フィードバックを考慮に入れた直接選好最適化手法の新たな変種であるScore-DPOを組み込んでいる。
質問応答、コーディング、数学的推論を通じて、既存のベースラインよりも8.2%改善されている。
論文 参考訳(メタデータ) (2025-02-06T18:47:49Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback [19.28222902440827]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。
Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。
本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:01:05Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。