論文の概要: ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.04306v1
- Date: Thu, 06 Feb 2025 18:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:59.358263
- Title: ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
- Title(参考訳): ScoreFlow: Score-based Preference OptimizationによるLLMエージェントワークフローのマスタリング
- Authors: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam,
- Abstract要約: エージェントワークフロー最適化のための高性能フレームワークであるScoreFlowを開発した。
ScoreFlowは、量的フィードバックを考慮に入れた直接選好最適化手法の新たな変種であるScore-DPOを組み込んでいる。
質問応答、コーディング、数学的推論を通じて、既存のベースラインよりも8.2%改善されている。
- 参考スコア(独自算出の注目度): 51.280919773837645
- License:
- Abstract: Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow
- Abstract(参考訳): 近年の研究では、複雑な問題解決のために大規模な言語モデルマルチエージェントシステムを活用し、それを構築するのに必要な手作業を削減するとともに、自動エージェントワークフロー最適化手法の開発を推進している。
しかし、既存の手法は、表現上の制限、適応性の欠如、離散最適化技術に依存する場合のスケーラビリティの低下などにより、柔軟性に欠けるままである。
ScoreFlowは、連続空間における効率的な勾配に基づく最適化を活用する、シンプルだが高性能なフレームワークである。
ScoreFlowは、量的フィードバックを考慮に入れた直接選好最適化手法の新たな変種であるScore-DPOを組み込んでいる。
質問応答、コーディング、数学的推論にまたがる6つのベンチマークで、ScoreFlowは既存のベースラインよりも8.2%改善されている。
さらに、より小さなモデルでは、推論コストの低い大きなモデルよりもパフォーマンスが向上する。
プロジェクト:https://github.com/Gen-Verse/ScoreFlow
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Direct Preference Optimization Using Sparse Feature-Level Constraints [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。
我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。
6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文 参考訳(メタデータ) (2024-10-14T17:40:40Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Global Matching with Overlapping Attention for Optical Flow Estimation [10.320192824517358]
GMFlowNetは光学フロー推定のための学習ベースのマッチング最適化フレームワークである。
標準ベンチマークで最先端のパフォーマンスを達成する。
GMFlowNetは、マッチングと重なり合う注意により、テクスチャレス領域と大きな動きの予測に大きな改善をもたらす。
論文 参考訳(メタデータ) (2022-03-21T20:52:19Z) - Automatic Tuning of Tensorflow's CPU Backend using Gradient-Free
Optimization Algorithms [0.6543507682026964]
Deep Learning (DL) アプリケーションは、ジーンやPyTorchといったDLライブラリやフレームワークを使って構築されている。
これらのフレームワークは複雑なパラメータを持ち、優れたトレーニングを得るために調整する。
そこで,本論文では,トレーニングと推論性能を改善するために,DLフレームワークのパラメータをチューニングする問題をブラックボックス問題として扱う。
論文 参考訳(メタデータ) (2021-09-13T19:10:23Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。