論文の概要: MAFA: A Multi-Agent Framework for Enterprise-Scale Annotation with Configurable Task Adaptation
- arxiv url: http://arxiv.org/abs/2510.14184v1
- Date: Thu, 16 Oct 2025 00:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.660973
- Title: MAFA: A Multi-Agent Framework for Enterprise-Scale Annotation with Configurable Task Adaptation
- Title(参考訳): MAFA: 構成可能なタスク適応を備えたエンタープライズ規模のアノテーションのためのマルチエージェントフレームワーク
- Authors: Mahmood Hegazy, Aaron Rodrigues, Azzam Naeem,
- Abstract要約: 本稿では,企業規模のアノテーションをマルチエージェントコラボレーションによって変換する実運用システムを提案する。
Mafaは、平均86%のアノテータとの合意を達成しながら、100万の発話バックログを削除した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MAFA (Multi-Agent Framework for Annotation), a production-deployed system that transforms enterprise-scale annotation workflows through configurable multi-agent collaboration. Addressing the critical challenge of annotation backlogs in financial services, where millions of customer utterances require accurate categorization, MAFA combines specialized agents with structured reasoning and a judge-based consensus mechanism. Our framework uniquely supports dynamic task adaptation, allowing organizations to define custom annotation types (FAQs, intents, entities, or domain-specific categories) through configuration rather than code changes. Deployed at JP Morgan Chase, MAFA has eliminated a 1 million utterance backlog while achieving, on average, 86% agreement with human annotators, annually saving over 5,000 hours of manual annotation work. The system processes utterances with annotation confidence classifications, which are typically 85% high, 10% medium, and 5% low across all datasets we tested. This enables human annotators to focus exclusively on ambiguous and low-coverage cases. We demonstrate MAFA's effectiveness across multiple datasets and languages, showing consistent improvements over traditional and single-agent annotation baselines: 13.8% higher Top-1 accuracy, 15.1% improvement in Top-5 accuracy, and 16.9% better F1 in our internal intent classification dataset and similar gains on public benchmarks. This work bridges the gap between theoretical multi-agent systems and practical enterprise deployment, providing a blueprint for organizations facing similar annotation challenges.
- Abstract(参考訳): MAFA(Multi-Agent Framework for Annotation)は,エンタープライズ規模のアノテーションワークフローを,構成可能なマルチエージェントコラボレーションを通じて変換する実運用システムである。
何百万という顧客の発話が正確な分類を必要とする金融サービスにおけるアノテーションバックログの重大な課題に対処するため、MAFAは専門エージェントと構造化推論と判断に基づくコンセンサス機構を組み合わせる。
私たちのフレームワークは動的タスク適応を独自にサポートしており、コードの変更ではなく、設定によってカスタムアノテーションタイプ(FAQ、インテント、エンティティ、ドメイン固有のカテゴリ)を定義できます。
JP Morgan ChaseにデプロイされたMAFAは、平均86%のアノテータとの合意を達成しつつ、100万の発話バックログを削除した。
システムは、一般的に85%の高さ、10%の媒体、5%の低レベルであるアノテーションの信頼度分類で発話を処理する。
これにより、人間のアノテーションは曖昧で低カバレッジのケースにのみ焦点を合わせることができる。
複数のデータセットや言語にまたがるMAFAの有効性を実証し、従来のアノテーションベースラインと単一エージェントアノテーションベースラインを一貫して改善した:13.8%のTop-1精度、15.1%のTop-5精度の改善、および内部意図分類データセットにおけるF1の16.9%の改善、および公開ベンチマークにおける同様の改善である。
この作業は、理論的マルチエージェントシステムと実践的なエンタープライズデプロイメントのギャップを埋め、同様のアノテーションの課題に直面している組織に青写真を提供する。
関連論文リスト
- How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-22T06:24:08Z) - MAFA: A multi-agent framework for annotation [0.0]
本稿では、異なるアプローチで特殊エージェントを結合するアノテーションのためのマルチエージェントフレームワークと、最適な結果を得るために候補を再参照する判断エージェントを紹介する。
私たちのフレームワークは、あいまいなクエリを扱うのに特に効果的で、本番バンキングアプリケーションのデプロイに適しています。
論文 参考訳(メタデータ) (2025-05-19T19:16:37Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - A Unified and Efficient Coordinating Framework for Autonomous DBMS
Tuning [34.85351481228439]
既存のMLベースのエージェントを効率的に活用するための統合コーディネートフレームワークを提案する。
機械学習ベースのエージェントを効果的に利用し、ワークロードの実行時間に1.414.1Xのスピードアップでより良い設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-03-10T05:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。