論文の概要: Toward General Semantic Chunking: A Discriminative Framework for Ultra-Long Documents
- arxiv url: http://arxiv.org/abs/2602.23370v1
- Date: Tue, 23 Dec 2025 16:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.930918
- Title: Toward General Semantic Chunking: A Discriminative Framework for Ultra-Long Documents
- Title(参考訳): 汎用セマンティックチャンキングに向けて:超長文文書の識別フレームワーク
- Authors: Kaifeng Wu, Junyan Wu, Qiang Liu, Jiarui Zhang, Wen Xu,
- Abstract要約: 長期文書トピックセグメンテーションは,情報検索や文書理解において重要な役割を担っている。
従来の識別モデルは固定ウィンドウによって制約されており、文書レベルの意味論をモデル化することはできない。
生成可能な大言語モデルは段落境界を出力することができるが、推論は高価であり、長い入力はサポートし難い。
- 参考スコア(独自算出の注目度): 10.682600460180174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-document topic segmentation plays an important role in information retrieval and document understanding, yet existing methods still show clear shortcomings in ultra-long text settings. Traditional discriminative models are constrained by fixed windows and cannot model document-level semantics; generative large language models can output paragraph boundaries, but inference is expensive and long inputs are difficult to support. To address these issues, we propose a discriminative segmentation model based on Qwen3-0.6B. On top of the backbone network, we add a cross-window context fusion layer and a boundary classification head, and combine them with an overlapping sliding-window strategy. Our model supports single-pass inputs of up to 13k tokens and can be extended to ultra-long documents for paragraph boundary detection. To further enhance downstream retrieval efficiency, we derive a vector fusion method with scalar correction, which compresses the representation of ultra-long segments into a single vector without semantic loss. Experiments on the Wikipedia long-document topic segmentation dataset WIKI-727K show that, compared with three generative models based on Qwen2-0.5B released by Jina, our method achieves a better macro-averaged F1 and delivers two orders of magnitude faster inference, substantially improving the practicality and scalability of long-document processing.
- Abstract(参考訳): 長文トピックセグメンテーションは情報検索や文書理解において重要な役割を担っているが、既存の手法では、超長文設定において明らかな欠点が示されている。
従来の識別モデルは固定ウィンドウで制約されており、文書レベルのセマンティクスをモデル化できない; 生成可能な大規模言語モデルは段落境界を出力できるが、推論は高価であり、長い入力はサポートしにくい。
これらの問題に対処するために,Qwen3-0.6Bに基づく識別的セグメンテーションモデルを提案する。
バックボーンネットワーク上に,クロスウィンドウコンテキスト融合層と境界分類ヘッドを追加し,重なり合うスライドウィンドウ戦略と組み合わせる。
我々のモデルは最大13kトークンのシングルパス入力をサポートし、パラグラフ境界検出のために超長文書に拡張することができる。
下流の検索効率をさらに高めるため,極長セグメントの表現を意味的損失なく単一のベクトルに圧縮するスカラー補正を用いたベクトル融合法を導出する。
ウィキペディアの長文書トピックセグメンテーションデータセットWIKI-727Kの実験では、JannaがリリースしたQwen2-0.5Bに基づく3つの生成モデルと比較して、より優れたマクロ平均F1を実現し、2桁の高速推論を実現し、長文書処理の実用性とスケーラビリティを大幅に向上した。
関連論文リスト
- Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。
凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。
要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文 参考訳(メタデータ) (2024-10-09T03:42:40Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - ERNIE-DOC: The Retrospective Long-Document Modeling Transformer [24.426571160930635]
Recurrence Transformersに基づく文書レベルの言語プリトレーニングモデルであるERNIE-DOCを提案する。
ふりかえりフィード機構とリカレンスメカニズムの強化という2つのよく設計されたテクニックにより、ELNIE-DOCははるかに長いコンテキスト長を実現できます。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
論文 参考訳(メタデータ) (2020-12-31T16:12:48Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。