Fugu-MT 論文翻訳(概要): DebFlow: Automating Agent Creation via Agent Debate

論文の概要: DebFlow: Automating Agent Creation via Agent Debate

arxiv url: http://arxiv.org/abs/2503.23781v1
Date: Mon, 31 Mar 2025 06:56:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.294426
Title: DebFlow: Automating Agent Creation via Agent Debate
Title（参考訳）: DebFlow: エージェントによるエージェント生成の自動化
Authors: Jinwei Su, Yinghui Xia, Ronghua Shi, Jianhui Wang, Jianuo Huang, Yijin Wang, Tianyu Shi, Yang Jingsong, Lewei He,
Abstract要約: DebFlowは、リフレクションを最適化し、統合して改善するための議論のメカニズムを使用するフレームワークである。提案手法は,HotpotQA,MATH,ALFWorldを含む6つのベンチマークデータセットで評価した。トレーニング中、我々のフレームワークは最先端のベースラインと比較してリソース消費を37%削減します。
参考スコア（独自算出の注目度）: 3.7606626616500947
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated strong potential and impressive performance in automating the generation and optimization of workflows. However, existing approaches are marked by limited reasoning capabilities, high computational demands, and significant resource requirements. To address these issues, we propose DebFlow, a framework that employs a debate mechanism to optimize workflows and integrates reflexion to improve based on previous experiences. We evaluated our method across six benchmark datasets, including HotpotQA, MATH, and ALFWorld. Our approach achieved a 3\% average performance improvement over the latest baselines, demonstrating its effectiveness in diverse problem domains. In particular, during training, our framework reduces resource consumption by 37\% compared to the state-of-the-art baselines. Additionally, we performed ablation studies. Removing the Debate component resulted in a 4\% performance drop across two benchmark datasets, significantly greater than the 2\% drop observed when the Reflection component was removed. These findings strongly demonstrate the critical role of Debate in enhancing framework performance, while also highlighting the auxiliary contribution of reflexion to overall optimization.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ワークフローの生成と最適化を自動化する上で、強力な可能性と優れたパフォーマンスを示している。しかし、既存のアプローチは、限られた推論能力、高い計算要求、重要なリソース要求によって特徴付けられる。これらの問題に対処するために、ワークフローを最適化し、以前の経験に基づいて改善するために反射を統合する、議論のメカニズムを用いるフレームワークであるDebFlowを提案する。提案手法は,HotpotQA,MATH,ALFWorldを含む6つのベンチマークデータセットで評価した。提案手法は,最新のベースラインよりも平均3倍の性能向上を実現し,多様な問題領域においてその有効性を実証した。特に、トレーニング中、我々のフレームワークは最先端のベースラインと比較してリソース消費を37 %削減します。また,アブレーション研究も行った。 Debateコンポーネントを取り除いた結果、2つのベンチマークデータセットでパフォーマンスが4\%低下した。これらの知見は,フレームワークのパフォーマンス向上にDebateが重要な役割を担っていることを強く示し,また全体の最適化に対する反射の補助的貢献を強調した。

関連論文リスト

Optimizing Legal Document Retrieval in Vietnamese with Semi-Hard Negative Mining [4.233176571117095]
本稿では,法的文書検索の効率と精度を高めるために,検索と再ランクからなる2段階の枠組みを提案する。鍵となるイノベーションは、検索の有効性を評価するExist@mメトリックの導入と、トレーニングバイアスを軽減するためのセミハードネガティブの使用である。このフレームワークは、最適化されたデータ処理、調整された損失関数、バランスの取れた負のサンプリングが、法的な文脈で堅牢な検索強化システムを構築する上で重要であることを示す。
論文参考訳（メタデータ） (2025-07-19T13:30:14Z)
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization [46.33639431414019]
大規模言語モデルは機能的に正しいソリューションを生成するが、コード効率が不足することが多い。この問題に対処する新しいテストタイム反復最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-29T12:14:29Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
HuixiangDou2: A Robustly Optimized GraphRAG Approach [11.91228019623924]
グラフベースのRetrieval-Augmented Generation (GraphRAG)は、動的検索のためのグラフとして構造化することで、この問題に対処する。堅牢に最適化されたGraphRAGフレームワークであるHixiangDou2を紹介する。具体的には、二重レベル検索の有効性を活用し、32kコンテキストでその性能を最適化する。
論文参考訳（メタデータ） (2025-03-09T06:20:24Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization [51.280919773837645]
エージェントワークフロー最適化のための高性能フレームワークであるScoreFlowを開発した。 ScoreFlowは、量的フィードバックを考慮に入れた直接選好最適化手法の新たな変種であるScore-DPOを組み込んでいる。質問応答、コーディング、数学的推論を通じて、既存のベースラインよりも8.2%改善されている。
論文参考訳（メタデータ） (2025-02-06T18:47:49Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback [19.28222902440827]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。 Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:01:05Z)
Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文参考訳（メタデータ） (2023-04-04T22:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。