論文の概要: Rethinking Meeting Effectiveness: A Benchmark and Framework for Temporal Fine-grained Automatic Meeting Effectiveness Evaluation
- arxiv url: http://arxiv.org/abs/2604.17260v1
- Date: Sun, 19 Apr 2026 04:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.42381
- Title: Rethinking Meeting Effectiveness: A Benchmark and Framework for Temporal Fine-grained Automatic Meeting Effectiveness Evaluation
- Title(参考訳): ミーティング効果の再考: 時間的きめ細かいミーティング効果評価のためのベンチマークとフレームワーク
- Authors: Yihang Li, Chenhui Chu,
- Abstract要約: ミーティングの有効性を評価することは 組織的生産性を向上させるのに不可欠です
現在のアプローチでは、ミーティング全体の粗大なスコアを1つ獲得する、ポストホックな調査に頼っています。
本稿では,新しい基準と時間的きめ細かなアプローチを中心としたミーティングの有効性を評価するための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 23.813275217960093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating meeting effectiveness is crucial for improving organizational productivity. Current approaches rely on post-hoc surveys that yield a single coarse-grained score for an entire meeting. The reliance on manual assessment is inherently limited in scalability, cost, and reproducibility. Moreover, a single score fails to capture the dynamic nature of collaborative discussions. We propose a new paradigm for evaluating meeting effectiveness centered on novel criteria and temporal fine-grained approach. We define effectiveness as the rate of objective achievement over time and assess it for individual topical segments within a meeting. To support this task, we introduce the AMI Meeting Effectiveness (AMI-ME) dataset, a new meta-evaluation dataset containing 2,459 human-annotated segments from 130 AMI Corpus meetings. We also develop an automatic effectiveness evaluation framework that uses a Large Language Model (LLM) as a judge to score each segment's effectiveness relative to the overall meeting objectives. Through substantial experiments, we establish a comprehensive benchmark for this new task and evaluate the framework's generalizability across distinct meeting types, ranging from business scenarios to unstructured discussions. Furthermore, we benchmark end-to-end performance starting from raw speech to measure the capabilities of a complete system. Our results validate the framework's effectiveness and provide strong baselines to facilitate future research in meeting analysis and multi-party dialogue. Our dataset and code will be publicly available. The AMI-ME dataset and the Automatic Evaluation Framework are available at: this URL.
- Abstract(参考訳): ミーティングの有効性を評価することは、組織の生産性を向上させるために重要です。
現在のアプローチでは、ミーティング全体の粗大なスコアを1つ獲得する、ポストホックな調査に頼っています。
手動による評価への依存は、本質的にスケーラビリティ、コスト、再現性に制限されている。
さらに、ひとつのスコアが協調的な議論の動的な性質を捉えることに失敗する。
本稿では,新しい基準と時間的きめ細かなアプローチを中心としたミーティングの有効性を評価するための新しいパラダイムを提案する。
我々は、効果を時間とともに客観的な達成率として定義し、ミーティング内の個々のトピックセグメントに対して評価する。
この課題を支援するために,130 AMI Corpus ミーティングから2,459 個の人称注釈セグメントを含む新たなメタ評価データセット AMI Meeting Effectiveness (AMI-ME) データセットを紹介した。
また,Large Language Model (LLM) を判断に用いる自動評価フレームワークを開発し,ミーティング全体の目的に対して各セグメントの有効性を評価する。
実際の実験を通じて、我々はこの新しいタスクの包括的なベンチマークを確立し、ビジネスシナリオから非構造的な議論まで、異なるミーティングタイプにわたるフレームワークの一般化可能性を評価する。
さらに,生音声から始まるエンドツーエンドのパフォーマンスをベンチマークして,システム全体の性能を計測する。
本研究は,フレームワークの有効性を検証し,会議分析や多人数対話における今後の研究を促進するための強力なベースラインを提供するものである。
データセットとコードは公開されます。
AMI-MEデータセットとAutomatic Evaluation Frameworkは以下の通りである。
関連論文リスト
- Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - CREAM: Comparison-Based Reference-Free ELO-Ranked Automatic Evaluation for Meeting Summarization [37.44018461165065]
CREAM (Comparison-Based Reference-Free Elo-Ranked Automatic Evaluation for Meeting Summarization) は、ミーティングサマリーを評価する際の課題に対処する新しいフレームワークである。
ELOランキングシステムを利用することで、異なるモデルの品質や迅速な構成を比較するための堅牢なメカニズムを提供する。
論文 参考訳(メタデータ) (2024-09-17T04:39:20Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。