論文の概要: TreeSeg: Hierarchical Topic Segmentation of Large Transcripts
- arxiv url: http://arxiv.org/abs/2407.12028v1
- Date: Fri, 28 Jun 2024 23:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:20:27.682387
- Title: TreeSeg: Hierarchical Topic Segmentation of Large Transcripts
- Title(参考訳): TreeSeg: 大規模トランスクリプトの階層的なトピックセグメンテーション
- Authors: Dimitrios C. Gklezakos, Timothy Misiak, Diamond Bishop,
- Abstract要約: 本稿では,市販の埋め込みモデルと分割クラスタリングを組み合わせるアプローチであるTreeSegを紹介し,バイナリツリーの形で,階層的で構造化された転写文のセグメンテーションを生成する。
ICSIとAMIコーパスでTreeSegを評価し,すべてのベースラインを上回る性能を示した。
最後に,自己記録ビデオセッションから得られた手書き手書き文字の小さなコーパスであるTinyRecを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: From organizing recorded videos and meetings into chapters, to breaking down large inputs in order to fit them into the context window of commoditized Large Language Models (LLMs), topic segmentation of large transcripts emerges as a task of increasing significance. Still, accurate segmentation presents many challenges, including (a) the noisy nature of the Automatic Speech Recognition (ASR) software typically used to obtain the transcripts, (b) the lack of diverse labeled data and (c) the difficulty in pin-pointing the ground-truth number of segments. In this work we present TreeSeg, an approach that combines off-the-shelf embedding models with divisive clustering, to generate hierarchical, structured segmentations of transcripts in the form of binary trees. Our approach is robust to noise and can handle large transcripts efficiently. We evaluate TreeSeg on the ICSI and AMI corpora, demonstrating that it outperforms all baselines. Finally, we introduce TinyRec, a small-scale corpus of manually annotated transcripts, obtained from self-recorded video sessions.
- Abstract(参考訳): 記録されたビデオや会議を章にまとめることから、それらをコモディティ化されたLarge Language Models (LLM)のコンテキストウィンドウに適合させるために、大きなテキストのトピックセグメンテーションが重要度を高めるタスクとして出現する。
それでも正確なセグメンテーションには多くの課題がある。
(a)典型的には、自動音声認識(ASR)ソフトウェアの雑音性
b)多彩なラベル付きデータの欠如と
(c) セグメントの接点・接点数をピンポイントすることの難しさ。
本研究では,市販の埋め込みモデルと分割クラスタリングを組み合わせるアプローチであるTreeSegを紹介し,バイナリツリーの形で,階層的で構造化されたトランスクリプトのセグメンテーションを生成する。
我々のアプローチはノイズに耐性があり、大きな文字を効率的に処理できる。
ICSIとAMIコーパスでTreeSegを評価し,すべてのベースラインを上回る性能を示した。
最後に,自己記録ビデオセッションから得られた手書き手書き文字の小さなコーパスであるTinyRecを紹介する。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - MUG: A General Meeting Understanding and Generation Benchmark [60.09540662936726]
我々はAliMeeting4MUG Corpusを構築した。
本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文 参考訳(メタデータ) (2023-03-24T11:52:25Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - An End-to-End Document-Level Neural Discourse Parser Exploiting
Multi-Granularity Representations [24.986030179701405]
構文とセマンティクスにまたがる複数のレベルの粒度から派生した堅牢な表現を利用します。
このような表現をエンドツーエンドのエンコーダデコーダニューラルアーキテクチャに組み込んで、よりリソース豊富な対話処理を行います。
論文 参考訳(メタデータ) (2020-12-21T08:01:04Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。