論文の概要: Long text outline generation: Chinese text outline based on unsupervised framework and large language mode
- arxiv url: http://arxiv.org/abs/2412.00810v1
- Date: Sun, 01 Dec 2024 13:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:34.325647
- Title: Long text outline generation: Chinese text outline based on unsupervised framework and large language mode
- Title(参考訳): 長文アウトライン生成:教師なしフレームワークと大規模言語モードに基づく中国語テキストアウトライン生成
- Authors: Yan Yan, Yuanchi Ma,
- Abstract要約: 本研究では,教師なしフレームワークと大規模モデルを組み合わせた中国語のアウトライン生成手法を提案する。
具体的には、まず、エンティティと構文的依存関係に基づいた章特徴グラフデータを生成する。
グラフ注意層に基づく表現モジュールは、章グラフデータの深い埋め込みを学習し、プロット境界を分割する。
最後に、各プロットセグメントの要約を生成し、全体像を生成するために、大きなモデルを用いる。
- 参考スコア(独自算出の注目度): 9.570650109953679
- License:
- Abstract: Outline generation aims to reveal the internal structure of a document by identifying underlying chapter relationships and generating corresponding chapter summaries. Although existing deep learning methods and large models perform well on small- and medium-sized texts, they struggle to produce readable outlines for very long texts (such as fictional works), often failing to segment chapters coherently. In this paper, we propose a novel outline generation method for Chinese, combining an unsupervised framework with large models. Specifically, the method first generates chapter feature graph data based on entity and syntactic dependency relationships. Then, a representation module based on graph attention layers learns deep embeddings of the chapter graph data. Using these chapter embeddings, we design an operator based on Markov chain principles to segment plot boundaries. Finally, we employ a large model to generate summaries of each plot segment and produce the overall outline. We evaluate our model based on segmentation accuracy and outline readability, and our performance outperforms several deep learning models and large models in comparative evaluations.
- Abstract(参考訳): アウトライン生成は、基礎となる章の関係を特定し、対応する章の要約を生成することによって、文書の内部構造を明らかにすることを目的としている。
既存のディープラーニングの手法や大規模なモデルは、中小のテキストでよく機能するが、非常に長いテキスト(フィクション作品など)の読みやすいアウトラインを作るのに苦労し、しばしば章を一貫性を持って分割することができない。
本稿では,教師なしフレームワークと大規模モデルを組み合わせた中国語のアウトライン生成手法を提案する。
具体的には、まず、エンティティと構文的依存関係に基づいた章特徴グラフデータを生成する。
そして、グラフ注意層に基づく表現モジュールは、章グラフデータの深い埋め込みを学習する。
これらの章埋め込みを用いて、マルコフ連鎖原理に基づく作用素を設計し、プロット境界を分割する。
最後に、各プロットセグメントの要約を生成し、全体像を生成するために、大きなモデルを用いる。
セグメンテーションの精度とアウトラインの可読性に基づいてモデルを評価し、性能はいくつかのディープラーニングモデルと大規模モデルに比較して優れる。
関連論文リスト
- A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Leveraging Locality in Abstractive Text Summarization [44.67905693077539]
制限されたコンテキストを持つモデルが、メモリ効率の低いアテンションモデルと比較して競合性能を持つかどうかを検討する。
本モデルは,局所性の原理によってグループ化された入力の一部を含む個々のページに適用される。
論文 参考訳(メタデータ) (2022-05-25T03:59:24Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - TopNet: Learning from Neural Topic Model to Generate Long Stories [43.5564336855688]
Long Story Generation (LSG) は自然言語処理における目標の1つである。
短い入力を補完する高品質なスケルトン語を得るために,emphTopNetを提案する。
提案手法は骨格語選択に極めて有効であり, 自動評価と人的評価の両方において最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-14T09:47:53Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。