論文の概要: Text summarization via global structure awareness
- arxiv url: http://arxiv.org/abs/2602.09821v2
- Date: Wed, 11 Feb 2026 04:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.232068
- Title: Text summarization via global structure awareness
- Title(参考訳): 大域的構造認識によるテキスト要約
- Authors: Jiaquan Zhang, Chaoning Zhang, Shuxu Chen, Yibei Liu, Chenghao Li, Qigan Sun, Shuai Yuan, Fachrina Dewi Puspitasari, Dongshen Han, Guoqing Wang, Sung-Ho Bae, Yang Yang,
- Abstract要約: GloSA-sumは、トポロジカルデータ解析を通じてグローバルな構造認識を実現する最初の要約手法である。
我々は文の埋め込みから意味重み付きグラフを構築し、永続的ホモロジーはコアセマンティクスと論理構造を識別する。
複数のデータセットの実験では、GloSA-sumは意味論的および論理的整合性を保ちながら冗長性を低下させることを示した。
- 参考スコア(独自算出の注目度): 22.20867068329986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text summarization is a fundamental task in natural language processing (NLP), and the information explosion has made long-document processing increasingly demanding, making summarization essential. Existing research mainly focuses on model improvements and sentence-level pruning, but often overlooks global structure, leading to disrupted coherence and weakened downstream performance. Some studies employ large language models (LLMs), which achieve higher accuracy but incur substantial resource and time costs. To address these issues, we introduce GloSA-sum, the first summarization approach that achieves global structure awareness via topological data analysis (TDA). GloSA-sum summarizes text efficiently while preserving semantic cores and logical dependencies. Specifically, we construct a semantic-weighted graph from sentence embeddings, where persistent homology identifies core semantics and logical structures, preserved in a ``protection pool'' as the backbone for summarization. We design a topology-guided iterative strategy, where lightweight proxy metrics approximate sentence importance to avoid repeated high-cost computations, thus preserving structural integrity while improving efficiency. To further enhance long-text processing, we propose a hierarchical strategy that integrates segment-level and global summarization. Experiments on multiple datasets demonstrate that GloSA-sum reduces redundancy while preserving semantic and logical integrity, striking a balance between accuracy and efficiency, and further benefits LLM downstream tasks by shortening contexts while retaining essential reasoning chains.
- Abstract(参考訳): テキスト要約は自然言語処理(NLP)の基本的な課題であり、情報爆発によって長い文書処理がますます要求されるようになり、要約が不可欠になっている。
既存の研究は主にモデルの改良と文レベルのプルーニングに重点を置いているが、しばしばグローバルな構造を見落とし、一貫性の破壊と下流のパフォーマンスの低下につながっている。
大規模言語モデル (LLMs) を用いる研究もあり、精度は高いが、かなりの資源と時間的コストがかかる。
このような問題に対処するため,TDA(トポロジカルデータ解析)によるグローバルな構造認識を実現する最初の要約手法であるGloSA-sumを紹介する。
GloSA-sumは、セマンティックコアと論理的依存関係を保持しながら、テキストを効率的に要約する。
具体的には、文埋め込みから意味重み付きグラフを構築し、永続的ホモロジーがコアセマンティクスと論理構造を識別し、「保護プール」を要約のバックボーンとして保存する。
我々は,高コスト計算の繰り返しを回避するために,軽量なプロキシ指標を文重要度に近似したトポロジ誘導型反復戦略を設計し,効率を向上しながら構造的整合性を維持する。
長文処理をさらに強化するために,セグメントレベルとグローバルな要約を統合する階層戦略を提案する。
複数のデータセットの実験では、GloSA-sumは意味論的および論理的整合性を保ちながら冗長性を低下させ、精度と効率のバランスを損なうとともに、本質的な推論チェーンを維持しながらコンテキストを短くすることで、LLM下流タスクにさらに恩恵をもたらすことが示されている。
関連論文リスト
- Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization [68.89915707647138]
大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、印象的な能力を示した。
textbfCoSMo(textbfSplit-textbfMerge textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2026-02-03T05:54:28Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。