論文の概要: Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features
- arxiv url: http://arxiv.org/abs/2602.06647v1
- Date: Fri, 06 Feb 2026 12:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.390532
- Title: Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features
- Title(参考訳): ウェーブ間の読み上げ:文間音声特徴を用いたロバストなトピックセグメンテーション
- Authors: Steffen Freisinger, Philipp Seeberger, Tobias Bocklet, Korbinian Riedhammer,
- Abstract要約: 本稿では,テキストエンコーダとシームズ音声エンコーダの両方を微調整し,文境界付近の音響的手がかりを捉えるマルチモーダル手法を提案する。
YouTubeビデオの大規模なデータセットの実験では、テキストのみのベースラインとマルチモーダルのベースラインよりも大幅に向上している。
- 参考スコア(独自算出の注目度): 17.9089265435157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken content, such as online videos and podcasts, often spans multiple topics, which makes automatic topic segmentation essential for user navigation and downstream applications. However, current methods do not fully leverage acoustic features, leaving room for improvement. We propose a multi-modal approach that fine-tunes both a text encoder and a Siamese audio encoder, capturing acoustic cues around sentence boundaries. Experiments on a large-scale dataset of YouTube videos show substantial gains over text-only and multi-modal baselines. Our model also proves more resilient to ASR noise and outperforms a larger text-only baseline on three additional datasets in Portuguese, German, and English, underscoring the value of learned acoustic features for robust topic segmentation.
- Abstract(参考訳): オンラインビデオやポッドキャストなどのスポットコンテンツは、複数のトピックにまたがることが多いため、ユーザナビゲーションやダウンストリームアプリケーションにおいて、自動的にトピックセグメンテーションが不可欠である。
しかし、現在の手法では音響的特徴を完全に活用できず、改善の余地は残されている。
本稿では,テキストエンコーダとシームズ音声エンコーダの両方を微調整し,文境界付近の音響的手がかりを捉えるマルチモーダル手法を提案する。
大規模なYouTubeビデオデータセットの実験では、テキストのみのベースラインとマルチモーダルのベースラインよりも大幅に向上した。
我々のモデルは、ASRノイズに対する耐性も向上し、ポルトガル語、ドイツ語、英語の3つの追加データセットに対してより大きなテキストのみのベースラインを上回り、ロバストなトピックセグメンテーションのための学習された音響特性の価値を評価できる。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Discrete Audio Tokens: More Than a Survey! [137.3721175670642]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model [11.62674351793]
複数の拡張を伴ってコンテキスト特徴を適応する新しい音声ベースのTSモデルを提案する。
Qformerの成功に触発されて,マルチモーダルなコンテキスト強化Qformerを提案する。
提案手法は,様々な状況のTSシナリオにおいて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T03:06:45Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。