論文の概要: Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation
- arxiv url: http://arxiv.org/abs/2601.02128v1
- Date: Mon, 05 Jan 2026 14:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.163935
- Title: Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation
- Title(参考訳): マルチレベルトランスクリプトセグメンテーションに向けて:テーブル・オブ・コンテント生成のためのLoRAファインチューニング
- Authors: Steffen Freisinger, Philipp Seeberger, Thomas Ranzenberger, Tobias Bocklet, Korbinian Riedhammer,
- Abstract要約: テキストの階層的なトピックセグメンテーションに新たなアプローチを導入し,複数レベルの内容表を生成する。
我々は,大規模言語モデルにおけるゼロショットプロンプトとLoRAの微調整を比較し,高レベル音声ポーズ機能の統合も検討した。
- 参考スコア(独自算出の注目度): 16.692915208235764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting speech transcripts into thematic sections benefits both downstream processing and users who depend on written text for accessibility. We introduce a novel approach to hierarchical topic segmentation in transcripts, generating multi-level tables of contents that capture both topic and subtopic boundaries. We compare zero-shot prompting and LoRA fine-tuning on large language models, while also exploring the integration of high-level speech pause features. Evaluations on English meeting recordings and multilingual lecture transcripts (Portuguese, German) show significant improvements over established topic segmentation baselines. Additionally, we adapt a common evaluation measure for multi-level segmentation, taking into account all hierarchical levels within one metric.
- Abstract(参考訳): 音声の書き起こしをテーマセクションに分割することは、下流処理とアクセシビリティのために書かれたテキストに依存するユーザーの両方に利益がある。
テキストの階層的なトピックセグメンテーションに新たなアプローチを導入し、トピックとサブトピックの境界の両方をキャプチャする内容のマルチレベルテーブルを生成する。
我々は,大規模言語モデルにおけるゼロショットプロンプトとLoRAの微調整を比較し,高レベル音声ポーズ機能の統合も検討した。
英語の会議記録と多言語講義書き起こし (ポルトガル語, ドイツ語) の評価は, 確立されたトピックセグメンテーションベースラインよりも大幅に改善されている。
さらに,マルチレベルセグメンテーションの共通評価尺度を適用し,すべての階層レベルを考慮に入れた。
関連論文リスト
- Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech [61.00008468914252]
本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。
ベンチマークは、伝統的に段落のセグメンテーションが後処理の一部ではない未調査の音声領域に焦点を当てている。
第二に、制約付き復号法を提案し、大言語モデルが原文を保存しながら段落を挿入できるようにする。
第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
論文 参考訳(メタデータ) (2025-12-30T23:29:51Z) - Dense Video Captioning using Graph-based Sentence Summarization [80.52481563888459]
本稿では,高密度映像キャプションのためのグラフベースの分割・要約フレームワークを提案する。
本稿では,要約の段階に着目し,要約のための意味語間の関係を効果的に活用する枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-25T16:23:43Z) - Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings [2.615008111842321]
セマンティック音声エンコーダを用いたトピックセグメンテーションのためのエンドツーエンドスキームを提案する。
そこで本研究では,1000時間の公開録音を特徴とするデータセットを用いて,音声ニューストピックセグメンテーションのための新しいベンチマークを提案する。
この結果から,従来のパイプライン方式では英語のP_k$スコアが0.2431であるのに対して,エンドツーエンドモデルは競争力のあるP_k$スコアが0.2564であることがわかった。
論文 参考訳(メタデータ) (2024-09-10T05:24:36Z) - TreeSeg: Hierarchical Topic Segmentation of Large Transcripts [0.0]
本稿では,市販の埋め込みモデルと分割クラスタリングを組み合わせるアプローチであるTreeSegを紹介し,バイナリツリーの形で,階層的で構造化された転写文のセグメンテーションを生成する。
ICSIとAMIコーパスでTreeSegを評価し,すべてのベースラインを上回る性能を示した。
最後に,自己記録ビデオセッションから得られた手書き手書き文字の小さなコーパスであるTinyRecを紹介する。
論文 参考訳(メタデータ) (2024-06-28T23:49:26Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - SegAugment: Maximizing the Utility of Speech Translation Data with
Segmentation-based Augmentations [2.535399238341164]
エンドツーエンドの音声翻訳は、利用可能なデータリソースの不足によって妨げられます。
この問題に対処するために,新たなデータ拡張戦略であるSegAugmentを提案する。
また,提案手法は文レベルデータセットの強化にも有効であることを示す。
論文 参考訳(メタデータ) (2022-12-19T18:29:31Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。