論文の概要: From Context to EDUs: Faithful and Structured Context Compression via Elementary Discourse Unit Decomposition
- arxiv url: http://arxiv.org/abs/2512.14244v1
- Date: Tue, 16 Dec 2025 09:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.673242
- Title: From Context to EDUs: Faithful and Structured Context Compression via Elementary Discourse Unit Decomposition
- Title(参考訳): 文脈からEDUへ:初等談話単位分解による忠実で構造化された文脈圧縮
- Authors: Yiqing Zhou, Yu Lei, Shuzheng Si, Qingyan Sun, Wei Wang, Yifei Wu, Hao Wen, Gang Chen, Fanchao Qi, Maosong Sun,
- Abstract要約: グローバルな構造と細かな詳細の両方を保存するために設計された,新しい明示的圧縮フレームワークを提案する。
提案手法は,構造的コンテキスト圧縮を構造的テーマ選択プロセスとして再構成する。
提案手法は,最先端構造予測精度を実現し,フロンティアLLMを著しく上回っている。
- 参考スコア(独自算出の注目度): 46.36937947958481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Managing extensive context remains a critical bottleneck for Large Language Models (LLMs), particularly in applications like long-document question answering and autonomous agents where lengthy inputs incur high computational costs and introduce noise. Existing compression techniques often disrupt local coherence through discrete token removal or rely on implicit latent encoding that suffers from positional bias and incompatibility with closed-source APIs. To address these limitations, we introduce the EDU-based Context Compressor, a novel explicit compression framework designed to preserve both global structure and fine-grained details. Our approach reformulates context compression as a structure-then-select process. First, our LingoEDU transforms linear text into a structural relation tree of Elementary Discourse Units (EDUs) which are anchored strictly to source indices to eliminate hallucination. Second, a lightweight ranking module selects query-relevant sub-trees for linearization. To rigorously evaluate structural understanding, we release StructBench, a manually annotated dataset of 248 diverse documents. Empirical results demonstrate that our method achieves state-of-the-art structural prediction accuracy and significantly outperforms frontier LLMs while reducing costs. Furthermore, our structure-aware compression substantially enhances performance across downstream tasks ranging from long-context tasks to complex Deep Search scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)では、特に長期にわたる質問応答や、長い入力が高い計算コストを発生させ、ノイズを発生させる自律エージェントといったアプリケーションにおいて、広範なコンテキストの管理が依然として重要なボトルネックとなっている。
既存の圧縮技術は、離散トークンの除去によって局所的なコヒーレンスを乱したり、位置バイアスやクローズドソースAPIとの互換性に悩まされる暗黙の潜在エンコーディングに依存することが多い。
これらの制約に対処するために、我々は、グローバル構造と細かな詳細の両方を保存するために設計された、新しい明示的な圧縮フレームワークであるEDUベースのContext Compressorを紹介した。
提案手法は,コンテキスト圧縮を構造列選択プロセスとして再構成する。
まず,LingoEDUは線形テキストを基本談話単位(EDU)の構造関係木に変換する。
第二に、軽量ランキングモジュールは、線形化のためのクエリ関連サブツリーを選択する。
構造的理解を厳格に評価するために,手動で注釈付き248の文書データセットであるStructBenchをリリースする。
実験の結果,提案手法は最先端構造予測精度を達成し,コスト削減を図りながらフロンティアのLLMを著しく上回っていることがわかった。
さらに、構造認識圧縮は、長いコンテキストタスクから複雑なDeep Searchシナリオまで、下流タスク全体のパフォーマンスを大幅に向上させる。
関連論文リスト
- RePo: Language Models with Context Re-Positioning [10.269249887819988]
In-context Learning is fundamental to modern Large Language Models (LLMs)
一般的なアーキテクチャは、線形または定位置の指標を割り当てることで、厳密で固定された文脈構造を課します。
本稿では,コンテキスト再配置による余剰負荷を低減する機構であるRePoを提案する。
論文 参考訳(メタデータ) (2025-12-16T13:30:30Z) - AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees [66.39371821756649]
適応的で階層的なコンテキスト圧縮のための新しいフレームワークであるAdmTreeを提案する。
AdmTreeは情報密度に基づいて入力されたセグメントをgistトークンを利用して、可変長のセグメントをセマンティックバイナリツリーの葉として要約する。
グローバルなセマンティックコヒーレンスと共に細かな詳細を保存し、位置バイアスを緩和し、コンテンツに動的に適応することによって、AdmTreeは長いコンテキストのセマンティック情報をしっかりと保持する。
論文 参考訳(メタデータ) (2025-12-04T08:04:19Z) - Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。
CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-04T07:37:59Z) - Structure-R1: Dynamically Leveraging Structural Knowledge in LLM Reasoning through Reinforcement Learning [29.722512436773638]
本稿では,検索したコンテンツを推論に最適化した構造化表現に変換するフレームワークであるtextscStructure-R1を提案する。
textscStructure-R1は、7Bスケールのバックボーンモデルとの競合性能を一貫して達成していることを示す。
我々の理論的分析は,情報密度と文脈的明瞭度を向上させることによって,構造化表現が推論をいかに促進するかを示す。
論文 参考訳(メタデータ) (2025-10-16T23:19:28Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Data Dependency-Aware Code Generation from Enhanced UML Sequence Diagrams [54.528185120850274]
本稿では,API2Depという新しいステップバイステップコード生成フレームワークを提案する。
まず、サービス指向アーキテクチャに適した拡張Unified Modeling Language (UML) APIダイアグラムを紹介します。
次に、データフローの重要な役割を認識し、専用のデータ依存推論タスクを導入する。
論文 参考訳(メタデータ) (2025-08-05T12:28:23Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。