Fugu-MT 論文翻訳(概要): MAFA: A Multi-Agent Framework for Enterprise-Scale Annotation with Configurable Task Adaptation

論文の概要: MAFA: A Multi-Agent Framework for Enterprise-Scale Annotation with Configurable Task Adaptation

arxiv url: http://arxiv.org/abs/2510.14184v1
Date: Thu, 16 Oct 2025 00:30:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.660973
Title: MAFA: A Multi-Agent Framework for Enterprise-Scale Annotation with Configurable Task Adaptation
Title（参考訳）: MAFA: 構成可能なタスク適応を備えたエンタープライズ規模のアノテーションのためのマルチエージェントフレームワーク
Authors: Mahmood Hegazy, Aaron Rodrigues, Azzam Naeem,
Abstract要約: 本稿では,企業規模のアノテーションをマルチエージェントコラボレーションによって変換する実運用システムを提案する。 Mafaは、平均86%のアノテータとの合意を達成しながら、100万の発話バックログを削除した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present MAFA (Multi-Agent Framework for Annotation), a production-deployed system that transforms enterprise-scale annotation workflows through configurable multi-agent collaboration. Addressing the critical challenge of annotation backlogs in financial services, where millions of customer utterances require accurate categorization, MAFA combines specialized agents with structured reasoning and a judge-based consensus mechanism. Our framework uniquely supports dynamic task adaptation, allowing organizations to define custom annotation types (FAQs, intents, entities, or domain-specific categories) through configuration rather than code changes. Deployed at JP Morgan Chase, MAFA has eliminated a 1 million utterance backlog while achieving, on average, 86% agreement with human annotators, annually saving over 5,000 hours of manual annotation work. The system processes utterances with annotation confidence classifications, which are typically 85% high, 10% medium, and 5% low across all datasets we tested. This enables human annotators to focus exclusively on ambiguous and low-coverage cases. We demonstrate MAFA's effectiveness across multiple datasets and languages, showing consistent improvements over traditional and single-agent annotation baselines: 13.8% higher Top-1 accuracy, 15.1% improvement in Top-5 accuracy, and 16.9% better F1 in our internal intent classification dataset and similar gains on public benchmarks. This work bridges the gap between theoretical multi-agent systems and practical enterprise deployment, providing a blueprint for organizations facing similar annotation challenges.
Abstract（参考訳）: MAFA(Multi-Agent Framework for Annotation)は,エンタープライズ規模のアノテーションワークフローを,構成可能なマルチエージェントコラボレーションを通じて変換する実運用システムである。何百万という顧客の発話が正確な分類を必要とする金融サービスにおけるアノテーションバックログの重大な課題に対処するため、MAFAは専門エージェントと構造化推論と判断に基づくコンセンサス機構を組み合わせる。私たちのフレームワークは動的タスク適応を独自にサポートしており、コードの変更ではなく、設定によってカスタムアノテーションタイプ(FAQ、インテント、エンティティ、ドメイン固有のカテゴリ)を定義できます。 JP Morgan ChaseにデプロイされたMAFAは、平均86%のアノテータとの合意を達成しつつ、100万の発話バックログを削除した。システムは、一般的に85%の高さ、10%の媒体、5%の低レベルであるアノテーションの信頼度分類で発話を処理する。これにより、人間のアノテーションは曖昧で低カバレッジのケースにのみ焦点を合わせることができる。複数のデータセットや言語にまたがるMAFAの有効性を実証し、従来のアノテーションベースラインと単一エージェントアノテーションベースラインを一貫して改善した:13.8%のTop-1精度、15.1%のTop-5精度の改善、および内部意図分類データセットにおけるF1の16.9%の改善、および公開ベンチマークにおける同様の改善である。この作業は、理論的マルチエージェントシステムと実践的なエンタープライズデプロイメントのギャップを埋め、同様のアノテーションの課題に直面している組織に青写真を提供する。

関連論文リスト

OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文参考訳（メタデータ） (2026-01-19T12:23:44Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。計算コストを削減しながら、大きな利益を得ることができます。
論文参考訳（メタデータ） (2025-10-27T17:59:14Z)
How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文参考訳（メタデータ） (2025-10-10T19:04:28Z)
AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文参考訳（メタデータ） (2025-09-26T05:45:14Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。 MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文参考訳（メタデータ） (2025-05-22T06:24:08Z)
MAFA: A multi-agent framework for annotation [0.0]
本稿では、異なるアプローチで特殊エージェントを結合するアノテーションのためのマルチエージェントフレームワークと、最適な結果を得るために候補を再参照する判断エージェントを紹介する。私たちのフレームワークは、あいまいなクエリを扱うのに特に効果的で、本番バンキングアプリケーションのデプロイに適しています。
論文参考訳（メタデータ） (2025-05-19T19:16:37Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
A Unified and Efficient Coordinating Framework for Autonomous DBMS Tuning [34.85351481228439]
既存のMLベースのエージェントを効率的に活用するための統合コーディネートフレームワークを提案する。機械学習ベースのエージェントを効果的に利用し、ワークロードの実行時間に1.414.1Xのスピードアップでより良い設定を実現できることを示す。
論文参考訳（メタデータ） (2023-03-10T05:27:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。