論文の概要: Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech
- arxiv url: http://arxiv.org/abs/2605.17652v1
- Date: Sun, 17 May 2026 21:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.299341
- Title: Beyond Transcripts: Iterative Peer-Editing with Audio Unlocks High-Quality Human Summaries of Conversational Speech
- Title(参考訳): 音声をアンロックした反復的なピア編集による会話音声の高精度な人文要約
- Authors: Kaavya Chaparala, Thomas Thebaud, Jesús Villalba López, Laureano Moro-Velazquez, Peter Viechnicki, Najim Dehak,
- Abstract要約: 人間の音声に基づく要約と人間の書き起こしに基づく要約を比較し、異なる情報モダリティが要約品質に与える影響を追跡する。
音声に基づく要約は、書き起こし要約よりも情報が少なく、圧縮も少ないことが判明した。
これらの結果は, 語彙情報と韻律情報の両方から得られるベンチマークを作成するために, 人間のアノテーション間のピア編集を検証した。
- 参考スコア(独自算出の注目度): 15.050836014853017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are not enough established benchmarks for the task fo speech summarization. Creating new benchmarks demands human annotation, as LLMs could embed systemic errors and bias into datasets. We test ten annotation workflows varying input modality (audio, transcript, or both) and the inclusion of editing (self or peer-editing) to investigate potential quality tradeoffs from using human annotators to summarize audio. We compare human audio-based summaries to human transcript-based summaries to track the impact of the different information modalities on summary quality. We also compare the human outputs against four LLM benchmarks (three text, one audio) to examine whether human-written summaries are less informative than highly fluent automated outputs. We find that audio-based summaries are less informative and more compressed than transcript summaries. However, iterative peer-editing with audio mitigates this difference, enabling audio-based summaries to be as informative as their transcript counterparts and LLM summaries. These findings validate iterative peer-editing among human annotators for the creation of benchmarks informed by both lexical and prosodic information. This enables crucial dataset collection even in setting where transcripts are unavailable.
- Abstract(参考訳): タスクフォワードの要約のための確立されたベンチマークは十分ではない。
LLMはシステムエラーやバイアスをデータセットに埋め込むことができるため、新しいベンチマークを作成するには人間のアノテーションが必要である。
音声の要約にヒトのアノテータを用いることで、入力モダリティ(オーディオ、トランスクリプト、またはその両方)や編集(自己またはピア編集)を含む10のアノテーションワークフローをテストする。
人間の音声に基づく要約と人間の書き起こしに基づく要約を比較し、異なる情報モダリティが要約品質に与える影響を追跡する。
また、4つのLCMベンチマーク(3つのテキスト、1つのオーディオ)に対して人間の出力を比較し、人書き要約が高度に流用した自動出力よりも情報に乏しいかどうかを調べる。
音声に基づく要約は、書き起こし要約よりも情報が少なく、圧縮も少ないことが判明した。
しかし、音声による反復的なピア編集は、この違いを緩和し、音声に基づく要約は、その書き起こしとLLM要約と同程度に情報的になる。
これらの知見は, 語彙情報と韻律情報の両方から得られるベンチマークを作成するために, 人間のアノテーション間の反復的ピア編集を検証した。
これにより、スクリプティングが利用できない設定でも、重要なデータセットの収集が可能になる。
関連論文リスト
- JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions [66.71387365429062]
JASTINは命令駆動型オーディオ評価フレームワークである。
自己指示型推論タスクとして音声アセスメントを定式化する。
音声、音、音楽、ドメイン外評価タスクでMLLMを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-06T05:18:42Z) - Beyond Transcripts: A Renewed Perspective on Audio Chaptering [66.61445564139052]
音声のみのアーキテクチャ(AudioSeg)は,長文音声をコヒーレントなセクションに分割するためのテキストベースのアプローチよりも優れていることを示す。
YTSegの実験では、AudioSegはテキストベースのアプローチを著しく上回り、停止は最大の音響的利得をもたらし、MLLMは文脈長と弱命令によって制限される。
論文 参考訳(メタデータ) (2026-02-09T18:28:10Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Speech vs. Transcript: Does It Matter for Human Annotators in Speech Summarization? [35.71047777304832]
録音を聴くアノテータに基づく要約は、アノテータが書き起こしを読むものとは異なるかを検討する。
音声に基づく要約は、転写文に基づく要約よりも、現実的に一貫性があり、情報選択的であることが判明した。
論文 参考訳(メタデータ) (2024-08-12T13:25:53Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。