論文の概要: Beyond Transcripts: A Renewed Perspective on Audio Chaptering
- arxiv url: http://arxiv.org/abs/2602.08979v1
- Date: Mon, 09 Feb 2026 18:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.416648
- Title: Beyond Transcripts: A Renewed Perspective on Audio Chaptering
- Title(参考訳): Beyond Transcripts: オーディオチャプティングの新たな展望
- Authors: Fabian Retkowski, Maike Züfle, Thai Binh Nguyen, Jan Niehues, Alexander Waibel,
- Abstract要約: 音声のみのアーキテクチャ(AudioSeg)は,長文音声をコヒーレントなセクションに分割するためのテキストベースのアプローチよりも優れていることを示す。
YTSegの実験では、AudioSegはテキストベースのアプローチを著しく上回り、停止は最大の音響的利得をもたらし、MLLMは文脈長と弱命令によって制限される。
- 参考スコア(独自算出の注目度): 66.61445564139052
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio chaptering, the task of automatically segmenting long-form audio into coherent sections, is increasingly important for navigating podcasts, lectures, and videos. Despite its relevance, research remains limited and text-based, leaving key questions unresolved about leveraging audio information, handling ASR errors, and transcript-free evaluation. We address these gaps through three contributions: (1) a systematic comparison between text-based models with acoustic features, a novel audio-only architecture (AudioSeg) operating on learned audio representations, and multimodal LLMs; (2) empirical analysis of factors affecting performance, including transcript quality, acoustic features, duration, and speaker composition; and (3) formalized evaluation protocols contrasting transcript-dependent text-space protocols with transcript-invariant time-space protocols. Our experiments on YTSeg reveal that AudioSeg substantially outperforms text-based approaches, pauses provide the largest acoustic gains, and MLLMs remain limited by context length and weak instruction following, yet MLLMs are promising on shorter audio.
- Abstract(参考訳): 音声チャプティングは、長い形式の音声を自動的にコヒーレントなセクションに分割するタスクであり、ポッドキャスト、講義、ビデオのナビゲートにおいてますます重要になっている。
その関連性にもかかわらず、研究は限定的かつテキストベースであり、音声情報の利用、ASRエラーの処理、転写のない評価に関する重要な疑問は未解決のまま残されている。
テキストベースモデルと音響特性の体系的比較,学習音声表現に基づく新しいオーディオオンリーアーキテクチャ (AudioSeg) とマルチモーダルLCM (Multimodal LLM) ,(2) 転写品質,音響特徴,持続時間,話者構成を含むパフォーマンスに影響する要因の実証分析,(3) 転写に依存しないテキスト空間プロトコルと転写不変時空間プロトコルとの対比による形式化された評価プロトコル。
YTSegの実験では、AudioSegはテキストベースのアプローチを大幅に上回り、停止は最大の音響的利得を与え、MLLMは文脈長と弱命令によって制限されるが、MLLMは短いオーディオで有望である。
関連論文リスト
- Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features [17.9089265435157]
本稿では,テキストエンコーダとシームズ音声エンコーダの両方を微調整し,文境界付近の音響的手がかりを捉えるマルチモーダル手法を提案する。
YouTubeビデオの大規模なデータセットの実験では、テキストのみのベースラインとマルチモーダルのベースラインよりも大幅に向上している。
論文 参考訳(メタデータ) (2026-02-06T12:16:51Z) - Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations [18.74784108693223]
トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
SLMが如何に構文的・概念的特徴をエンコードするかはいまだ不明である。
本研究は,SLMにおける文脈的構文的特徴と意味的特徴の存在を体系的に評価した最初のものである。
論文 参考訳(メタデータ) (2025-09-19T06:29:33Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context [45.56363286769136]
本稿では,音声に基づく質問を理解し,そのコンテキストを同時に聴くように設計された新しいフレームワークであるSollaを紹介する。
Sollaには、音声イベントを効果的に識別し表現するためのオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測手法が組み込まれている。
本稿では,音声イベント分類,音声キャプション,音声質問応答の3つのタスクを含むSA-Evalというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-03-19T15:34:21Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。