論文の概要: Summarizing Speech: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2504.08024v2
- Date: Tue, 10 Jun 2025 11:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.866789
- Title: Summarizing Speech: A Comprehensive Survey
- Title(参考訳): 要約音声:包括的調査
- Authors: Fabian Retkowski, Maike Züfle, Andreas Sudmann, Dinah Pfau, Shinji Watanabe, Jan Niehues, Alexander Waibel,
- Abstract要約: 音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。
本調査では,要約手法の質を評価する上で重要な,既存のデータセットと評価プロトコルについて検討する。
- 参考スコア(独自算出の注目度): 76.13011304983458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech summarization has become an essential tool for efficiently managing and accessing the growing volume of spoken and audiovisual content. However, despite its increasing importance, speech summarization remains loosely defined. The field intersects with several research areas, including speech recognition, text summarization, and specific applications like meeting summarization. This survey not only examines existing datasets and evaluation protocols, which are crucial for assessing the quality of summarization approaches, but also synthesizes recent developments in the field, highlighting the shift from traditional systems to advanced models like fine-tuned cascaded architectures and end-to-end solutions. In doing so, we surface the ongoing challenges, such as the need for realistic evaluation benchmarks, multilingual datasets, and long-context handling.
- Abstract(参考訳): 音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。
しかし、その重要性は増しているが、音声要約はいまだに緩やかに定義されている。
この分野は、音声認識、テキスト要約、ミーティング要約のような特定の応用など、いくつかの研究領域と交差する。
この調査では,要約アプローチの品質評価に不可欠な既存のデータセットや評価プロトコルだけでなく,従来のシステムから,細調整のカスケードアーキテクチャやエンドツーエンドソリューションといった高度なモデルへのシフトを強調して,この分野における最近の発展を合成する。
そこで我々は,現実的な評価ベンチマーク,多言語データセット,長期コンテキスト処理など,現在進行中の課題を提起する。
関連論文リスト
- Discrete Audio Tokens: More Than a Survey! [107.69720675124255]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective [12.178918299455898]
本稿では,異なるモーダル間の情報交差に着目し,情報理論に基づく定量的解析を行う。
この分析は,音声・視覚処理タスクの難易度や,モダリティ統合によって得られるメリットを理解する上で有用であることを示す。
論文 参考訳(メタデータ) (2024-09-29T06:30:46Z) - Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks [0.0]
本稿では,タスク関連情報を組み込むことによって,要約処理の促進を図ることを提案する。
その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:15:35Z) - CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - Long Dialog Summarization: An Analysis [28.223798877781054]
この研究は、様々なアプリケーションにおける効果的なコミュニケーションのために、一貫性と文脈的に豊かな要約を作成することの重要性を強調している。
異なる領域における長いダイアログの要約に対する現在の最先端のアプローチについて検討し、ベンチマークに基づく評価により、異なる要約タスクのために、各領域で1つのモデルがうまく機能しないことを示す。
論文 参考訳(メタデータ) (2024-02-26T19:35:45Z) - Aspect-based Meeting Transcript Summarization: A Two-Stage Approach with
Weak Supervision on Sentence Classification [91.13086984529706]
Aspect-based meeting transcript summarization は複数の要約を生成することを目的としている。
従来の要約手法は、全ての側面の情報を1つの要約で混合する。
アスペクトベースの会議書き起こし要約のための2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T19:06:31Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - SummIt: Iterative Text Summarization via ChatGPT [12.966825834765814]
本稿では,ChatGPTのような大規模言語モデルに基づく反復的なテキスト要約フレームワークSummItを提案する。
我々のフレームワークは、自己評価とフィードバックによって生成された要約を反復的に洗練することを可能にする。
また, 繰り返し改良の有効性を検証し, 過補正の潜在的な問題を特定するために, 人間の評価を行う。
論文 参考訳(メタデータ) (2023-05-24T07:40:06Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - A Focused Study on Sequence Length for Dialogue Summarization [68.73335643440957]
既存のモデルの出力とそれに対応する人間の参照の長さの差を解析する。
モデル設定を比較し,要約長予測のための有能な特徴を同定する。
第3に,要約長を十分に組み込むことができれば,既存のモデルに顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-09-24T02:49:48Z) - Abstractive Meeting Summarization: A Survey [15.455647477995306]
会話の最も重要なポイントを確実に識別し、まとめることのできるシステムは、様々な現実世界の文脈で有用である。
ディープラーニングの最近の進歩は言語生成システムを大幅に改善し、抽象的な要約の形式を改良する扉を開いた。
本稿では,要約を抽象化するタスクによって引き起こされる課題の概要と,この問題に対処するために使用されるデータセット,モデル,評価指標について概説する。
論文 参考訳(メタデータ) (2022-08-08T14:04:38Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。