論文の概要: Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline
- arxiv url: http://arxiv.org/abs/2604.21345v1
- Date: Thu, 23 Apr 2026 07:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.344842
- Title: Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline
- Title(参考訳): 再利用可能なクロスドメインパイプラインによるAIミーティング要約の評価
- Authors: Philip Zhong, Don Wang, Jason Zhang, Kent Chen,
- Abstract要約: 本稿では,AI会議要約をインスタンス化した,生成型AIアプリケーションのための再利用可能な評価パイプラインを提案する。
このシステムは、ソースの取り込み、構造化された参照構成、候補生成、構造化されたスコアリング、レポートの5段階にわたるタスク固有のセマンティクスから再利用可能なオーケストレーションを分離する。
オフラインループをCity_council, private_data, whitehouse_press_briefingsにまたがる114のミーティングの型付きデータセットでベンチマークする。
- 参考スコア(独自算出の注目度): 2.4832413743954618
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a reusable evaluation pipeline for generative AI applications, instantiated for AI meeting summaries and released with a public artifact package derived from a Dataset Pipeline. The system separates reusable orchestration from task-specific semantics across five stages: source intake, structured reference construction, candidate generation, structured scoring, and reporting. Unlike standalone claim scorers, it treats both ground truth and evaluator outputs as typed, persisted artifacts, enabling aggregation, issue analysis, and statistical testing. We benchmark the offline loop on a typed dataset of 114 meetings spanning city_council, private_data, and whitehouse_press_briefings, producing 340 meeting-model pairs and 680 judge runs across gpt-4.1-mini, gpt-5-mini, and gpt-5.1. Under this protocol, gpt-4.1-mini achieves the highest mean accuracy (0.583), while gpt-5.1 leads in completeness (0.886) and coverage (0.942). Paired sign tests with Holm correction show no significant accuracy winner but confirm significant retention gains for gpt-5.1. A typed DeepEval contrastive baseline preserves retention ordering but reports higher holistic accuracy, suggesting that reference-based scoring may overlook unsupported-specifics errors captured by claim-grounded evaluation. Typed analysis identifies whitehouse_press_briefings as an accuracy-challenging domain with frequent unsupported specifics. A deployment follow-up shows gpt-5.4 outperforming gpt-4.1 across all metrics, with statistically robust gains on retention metrics under the same protocol. The system benchmarks the offline loop and documents, but does not quantitatively evaluate, the online feedback-to-evaluation path.
- Abstract(参考訳): 生成AIアプリケーションのための再利用可能な評価パイプラインを提案し,AI会議サマリーをインスタンス化し,Dataset Pipelineから派生した公開アーティファクトパッケージでリリースする。
このシステムは、ソースの取り込み、構造化された参照構成、候補生成、構造化されたスコアリング、レポートの5段階にわたるタスク固有のセマンティクスから再利用可能なオーケストレーションを分離する。
スタンドアローンのクレームスコアラとは異なり、基底真理と評価器の出力の両方を型付き、永続化されたアーティファクトとして扱い、アグリゲーション、問題分析、統計検査を可能にする。
city_council, private_data, whitehouse_press_briefingsにまたがる114のミーティングの型付きデータセット上で、オフラインループをベンチマークし、gpt-4.1-mini、gpt-5-mini、gpt-5.1の340のミーティングモデルペアと680のジャッジを生成する。
このプロトコルでは、gpt-4.1-miniが最も高い平均精度(0.583)を達成し、gpt-5.1は完全性(0.886)とカバレッジ(0.942)を導く。
ホルム補正によるペアリングサインテストでは、精度は向上しなかったが、gpt-5.1の保持率に有意な差が認められた。
タイプ付きDeepEvalコントラストベースラインは保持順序を保っているが、全体的な精度が向上し、クレームグラウンド評価によって得られた基準ベースのスコアが無視される可能性があることを示唆している。
Typed Analysisでは、Whitehouse_press_briefingsを、頻繁にサポートされない特異な正確性を持つドメインとして特定している。
デプロイメントのフォローアップでは、gpt-5.4がすべてのメトリクスでgpt-4.1を上回っており、同じプロトコルの下で保持メトリクスが統計的に堅牢である。
このシステムはオフラインループと文書をベンチマークするが、オンラインフィードバックから評価までの経路を定量的に評価しない。
関連論文リスト
- LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources [0.7734726150561088]
行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。
レイアウト、用語、データ品質の変化は、急激なトリアージ、大規模分析、探索計画を妨げる。
本稿では、AIによる解析および正規化パイプラインであるGuardian Packを紹介し、マルチソース調査文書を統一されたスキーマ準拠の表現に変換する。
論文 参考訳(メタデータ) (2026-04-08T01:35:56Z) - UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities [70.79422099851506]
対話型AIシステム評価のための統合評価ツールキットUniDial-EvalKit(UDE)を提案する。
UDEは異種データフォーマットを普遍的なスキーマに標準化し、モジュールアーキテクチャを通じて複雑な評価パイプラインを合理化し、一貫したスコアリングインターフェースの下でメートル法計算を調整する。
論文 参考訳(メタデータ) (2026-03-24T13:01:31Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses [5.396994583933599]
提案するPEEM(Prompt Engineering Evaluation Metrics)は,プロンプトと応答を統一的に評価するためのフレームワークである。
PEEMは9つの軸を持つ構造化ルーブリックを定義している。3つのプロンプト基準(明瞭さ/構造、言語的品質、公正)と6つの応答基準(正確さ、客観性、妥当性、明確さ、簡潔さ)。
論文 参考訳(メタデータ) (2026-03-11T07:00:59Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations [49.671779378073886]
無線規制分野における質問応答について検討する。
本稿では,通信事業者固有のレトリーバル拡張生成(RAG)パイプラインを提案する。
当社のアプローチは,テスト対象モデル全体の生成精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-09-11T17:43:42Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。