論文の概要: MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings
- arxiv url: http://arxiv.org/abs/2602.03285v1
- Date: Tue, 03 Feb 2026 09:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.3471
- Title: MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings
- Title(参考訳): MeetBench-XL:リアルタイム会議のための多次元評価と学習用双極性エージェント
- Authors: Yuelin Hu, Jun Xu, Bingcong Lu, Zhengxue Cheng, Hongwei Hu, Ronghua Wu, Li Song,
- Abstract要約: 企業会議から得られたバイリンガルかつマルチモーダルなコーパスであるMeetAllについて紹介する。
MeetBench XLは、事実の忠実さ、意図の整合性、応答効率、構造的明確性、完全性を測定する。
MeetMaster XLは学習されたデュアルポリシーエージェントで、高速で遅い推論パスとツール呼び出しの間のクエリルーティングを共同で最適化する。
- 参考スコア(独自算出の注目度): 17.012108640696916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise meeting environments require AI assistants that handle diverse operational tasks, from rapid fact checking during live discussions to cross meeting analysis for strategic planning, under strict latency, cost, and privacy constraints. Existing meeting benchmarks mainly focus on simplified question answering and fail to reflect real world enterprise workflows, where queries arise organically from multi stakeholder collaboration, span long temporal contexts, and require tool augmented reasoning. We address this gap through a grounded dataset and a learned agent framework. First, we introduce MeetAll, a bilingual and multimodal corpus derived from 231 enterprise meetings totaling 140 hours. Questions are injected using an enterprise informed protocol validated by domain expert review and human discriminability studies. Unlike purely synthetic benchmarks, this protocol is grounded in four enterprise critical dimensions: cognitive load, temporal context span, domain expertise, and actionable task execution, calibrated through interviews with stakeholders across finance, healthcare, and technology sectors. Second, we propose MeetBench XL, a multi dimensional evaluation protocol aligned with human judgment that measures factual fidelity, intent alignment, response efficiency, structural clarity, and completeness. Third, we present MeetMaster XL, a learned dual policy agent that jointly optimizes query routing between fast and slow reasoning paths and tool invocation, including retrieval, cross meeting aggregation, and web search. A lightweight classifier enables accurate routing with minimal overhead, achieving a superior quality latency tradeoff over single model baselines. Experiments against commercial systems show consistent gains, supported by ablations, robustness tests, and a real world deployment case study.Resources: https://github.com/huyuelin/MeetBench.
- Abstract(参考訳): 企業ミーティング環境は、ライブディスカッション中の素早い事実チェックから、戦略的計画のためのクロスミーティング分析、厳格なレイテンシ、コスト、プライバシ制約の下で、さまざまな運用タスクを処理するAIアシスタントを必要とします。
既存のミーティングベンチマークは主に、複数のステークホルダーのコラボレーションからクエリが有機的に発生し、長時間の時間的コンテキストにまたがり、ツールの拡張推論を必要とするような、単純な質問応答と現実のエンタープライズワークフローの反映に重点を置いている。
地上データセットと学習されたエージェントフレームワークを通じて、このギャップに対処する。
まず,231件の企業会議から得られたバイリンガルおよびマルチモーダルコーパスであるMeetAllを紹介した。
質問は、ドメインエキスパートレビューと人間の識別可能性研究によって検証された企業情報プロトコルを用いて注入される。
純粋に合成されたベンチマークとは異なり、このプロトコルは、認知負荷、時間的コンテキストスパン、ドメインの専門知識、アクション可能なタスク実行という、金融、医療、技術分野の利害関係者へのインタビューを通じて調整された4つの重要な側面に根ざしている。
第2にMetBench XLを提案する。これは人間の判断に一致した多次元評価プロトコルであり,実感的忠実度,意図的整合性,応答効率,構造的明瞭度,完全性を測定する。
第三に、MetMaster XLは、高速で遅い推論経路間のクエリルーティングと、検索、クロスミーティングアグリゲーション、Web検索を含むツール呼び出しを共同で最適化する、学習されたデュアルポリシーエージェントである。
軽量な分類器は、最小限のオーバーヘッドで正確なルーティングを可能にし、単一のモデルベースラインよりも優れた品質のレイテンシトレードオフを実現する。
商用システムに対する実験は、改善、堅牢性テスト、実世界のデプロイメントケーススタディで支えられた一貫した利益を示している。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Benefits and Limitations of Communication in Multi-Agent Reasoning [11.788489289062312]
マルチエージェントシステムの表現性を解析するための理論的枠組みを提案する。
i) タスクを正確に解くために必要なエージェントの数, (ii) エージェント間通信の量と構造, (iii) 達成可能なスピードアップを問題サイズとコンテキストスケールとして導出する。
本研究は,コミュニケーションが有益である状況を特定し,エージェント数と帯域幅のトレードオフを明確化し,いずれのリソースにも制約がある場合の本質的な制約を明らかにする。
論文 参考訳(メタデータ) (2025-10-14T20:04:27Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Compliance Brain Assistant: Conversational Agentic AI for Assisting Compliance Tasks in Enterprise Environments [2.8724171056550256]
Compliance Brain Assistant (CBA) は、企業環境における人員の日々のコンプライアンスタスクの効率を高めるために設計された、対話型のエージェントAIアシスタントである。
応答品質とレイテンシのバランスを良くするために,FastTrackモードとFullAgenticモードをインテリジェントに選択できるユーザクエリルータを設計する。
論文 参考訳(メタデータ) (2025-07-23T07:51:10Z) - AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis [0.0]
本稿では,A2AとMPPを自己実装した新しいモジュール型マルチプロトコールMASフレームワークであるAgentMasterの試験的検討を行う。
このシステムは、先行技術知識のない自然言語インタラクションをサポートし、情報検索、質問応答、画像解析を含むタスクに対するマルチモーダルクエリに応答する。
全体として、提案するフレームワークは、MASを利用したドメイン固有、協調的、スケーラブルな対話型AIの可能性に寄与する。
論文 参考訳(メタデータ) (2025-07-08T03:34:26Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。