論文の概要: FM SO.P: A Progressive Task Mixture Framework with Automatic Evaluation for Cross-Domain SOP Understanding
- arxiv url: http://arxiv.org/abs/2602.09336v1
- Date: Tue, 10 Feb 2026 02:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.325911
- Title: FM SO.P: A Progressive Task Mixture Framework with Automatic Evaluation for Cross-Domain SOP Understanding
- Title(参考訳): FM SO.P: クロスドメインSOP理解のための自動評価機能を備えたプログレッシブタスク混合フレームワーク
- Authors: Siyuan Huang, Ziyu Wang, Chao Pan, Han Zhao,
- Abstract要約: 既存の言語モデルは標準オペレーティング手順(SOP)と競合する
FM SO.Pを提案する。
まず、累積データを伴う3つのタスクタイプにまたがって、段階的に機能を構築するプログレッシブなタスクミックスを紹介する。
次に,3つのエージェントからなる自動マルチエージェント評価システムを提案する。
- 参考スコア(独自算出の注目度): 19.90863270947963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Operating Procedures (SOPs) are critical for enterprise operations, yet existing language models struggle with SOP understanding and cross-domain generalization. Current methods fail because joint training cannot differentiate between reasoning capabilities that SOP requires: terminology precision, sequential ordering, and constraint reasoning. We propose FM SO.P, solving these challenges through two novelties. First, we introduce progressive task mixtures that build capabilities by stages across three task types with cumulative data: concept disambiguation for terminology precision, action sequence understanding for procedural correctness, and scenario-aware graph reasoning for conditional logic. Second, we propose an automatic multi-agent evaluation system consisting of three agents that adaptively generate rubrics, stratified test sets, and rubric scoring, adapting to domains (e.g., temporal constraints for DMV, regulatory compliance for banking). Evaluated on SOPBench across seven domains (Bank, DMV, Healthcare, Market, University, Library, Hotel), FM SO.P achieves 48.3\% pass rate with our 32B model and 34.3\% with our opensource 7B model, matching Qwen-2.5-72B-Instruct baseline (34.4\%) with 10x fewer parameters.
- Abstract(参考訳): 標準オペレーティングプロシージャ(SOP)はエンタープライズオペレーションには不可欠だが、既存の言語モデルはSOPの理解とドメイン間の一般化に苦慮している。
ジョイントトレーニングでは,SOPが要求する推論能力 – 用語精度,逐次順序付け,制約推論 – を区別できないため,現在の手法は失敗する。
FM SO.Pを提案する。
まず,3つのタスクタイプと累積データを用いて段階的に機能を構築するプログレッシブ・タスク・ミックスを紹介し,その概念的曖昧さ,手続き的正確性に対するアクションシーケンス理解,条件論理に対するシナリオ対応グラフ推論について述べる。
次に, 3 つのエージェントからなる自動マルチエージェント評価システムを提案し, ドメインに適応し, ルーブリック, 階層化テストセット, ルーブリックスコアリングを適応的に生成する。
FM SO.P は 32B モデルで 48.3 %、オープンソース 7B モデルで 34.3 % を獲得し、Qwen-2.5-72B-Instruct ベースライン (34.4 %) と 10 倍のパラメータで一致する。
関連論文リスト
- QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search [19.376785819604923]
QP-OneModelはSNS検索エンジンにおけるユーザの意図とコンテンツの供給を橋渡しする。
新規な高忠実な意味信号として意図的記述を生成する。
また、32Bモデルを7.60%精度で上回り、より優れた一般化を示す。
論文 参考訳(メタデータ) (2026-02-10T15:38:17Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures [10.868853536476317]
大規模言語モデル(LLM)はドメイン固有のエージェントとして広くデプロイされている。
実世界のビジネスデータから構築したベンチマークであるSOP-Mazeを提案する。
大規模な実験により、最先端のほぼ全てのモデルがSOP-Mazeと競合していることが判明した。
論文 参考訳(メタデータ) (2025-10-10T02:47:53Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Recognizing and Splitting Conditional Sentences for Automation of
Business Processes Management [2.289790204910258]
1)技術文書から条件文を認識すること、2)条件文と結果文を抽出するための境界を見つけること、3)結果節をアクションまたはシーケンスとして分類することからなる、エンドツーエンドの問題を解決するシステムを提案する。
最適モデルでは条件,行動,結果の抽出に83.82,87.84,85.75の有望な結果を得た。
論文 参考訳(メタデータ) (2021-04-01T17:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。