論文の概要: SPOGW: a Score-based Preference Optimization method via Group-Wise comparison for workflows
- arxiv url: http://arxiv.org/abs/2510.04089v1
- Date: Sun, 05 Oct 2025 08:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.450238
- Title: SPOGW: a Score-based Preference Optimization method via Group-Wise comparison for workflows
- Title(参考訳): SPOGW:Score-based Preference Optimization method by Group-Wise comparison for workflows
- Authors: Yitong Cui, Liu Liu, Baosheng Yu, Jiayan Qiu, Xikai Zhang, Likang Xiao, Yixing Liu, Quan Chen,
- Abstract要約: 大規模言語モデル(LLM)は様々な分野、しばしばエージェントの使用を通じて、課題に対処する上で重要な能力を発揮している。
近年の研究では、建設に必要な人的介入を最小限に抑えることを目的としており、エージェントを最適化するための自動化技術の進歩につながっている。
SPOGWと呼ばれる新しいスコアベースの選好手法を導入し、グループワイド比較により、基数報酬信号を直接操作する。
- 参考スコア(独自算出の注目度): 23.667139832926225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited significant capabilities in addressing challenging problems throughout various fields, often through the use of agentic workflows that adhere to structured instructions and multi-step procedures. However, designing such workflows demands substantial manual effort, posing challenges to scalability and generalizability. Recent studies have aimed to minimize the human intervention needed for their construction, leading to advances in automated techniques for optimizing agentic workflows. However, current approaches are often constrained by their limited representational capacity, insufficient adaptability, weak scalability, and pairwise comparison paradigm -- issues that stem primarily from a dependence on discrete optimization techniques. To overcome these limitations, we introduce a new score-based preference approach, refereed as SPOGW, which operates directly on cardinal reward signals through group-wise comparison and enables more efficient and stable optimization in a continuous space. SPOGW incorporates Iterative offline GRPO (ioGRPO) with advantage-masked KL divergence (mKL), which regulates training update by placing greater emphasis on the advantageous regions of the policy response. In five benchmark datasets covering mathematical reasoning, coding, and question answering, SPOGW matches or exceeds the performance of current state-of-the-art approaches, presenting a viable and forward-looking methodology for automated generation and optimization of agentic workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野において、しばしば構造化命令や多段階手順に準拠するエージェントワークフローを使用することによって、困難な問題に対処する上で重要な能力を発揮している。
しかし、そのようなワークフローを設計するにはかなりの手作業が必要であり、スケーラビリティと一般化性に挑戦する。
近年の研究では、人的介入を最小限に抑えることを目的としており、エージェントワークフローを最適化する自動化技術が進歩している。
しかしながら、現在のアプローチは、限られた表現能力、不十分な適応性、弱いスケーラビリティ、ペアワイズ比較パラダイムによって制約されることが多い。
これらの制約を克服するため,SPOGWと呼ばれる新しいスコアベースの選好手法を導入し,グループワイド比較により基数報酬信号を直接操作し,連続空間におけるより効率的で安定した最適化を可能にする。
SPOGWは、Iterative offline GRPO (ioGRPO) とアドバンテージマスキングされたKL分散(mKL)を組み込んでいる。
数学的推論、コーディング、質問応答に関する5つのベンチマークデータセットでは、SPOGWは現在の最先端のアプローチのパフォーマンスと一致しているか、それとも超えている。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - LLM-guided Chemical Process Optimization with a Multi-Agent Approach [5.417632175667162]
化学プロセスの最適化は生産効率と経済性能の最大化に不可欠である。
勾配に基づくアルゴリズム、進化的アルゴリズム、パラメータグリッド探索を含む従来の手法は、操作上の制約が定義されていない場合や利用できない場合、実用的ではない。
本稿では,大規模言語モデル(LLM)エージェントのマルチエージェントフレームワークについて,最小限のプロセス記述から自律的に動作制約を推測する。
論文 参考訳(メタデータ) (2025-06-26T01:03:44Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - A Survey on the Optimization of Large Language Model-based Agents [16.733092886211097]
大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文 参考訳(メタデータ) (2025-03-16T10:09:10Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。