論文の概要: Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference
- arxiv url: http://arxiv.org/abs/2602.10021v1
- Date: Tue, 10 Feb 2026 17:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.720045
- Title: Decoupled Reasoning with Implicit Fact Tokens (DRIFT): A Dual-Model Framework for Efficient Long-Context Inference
- Title(参考訳): Decoupled Reasoning with Implicit Fact Tokens (DRIFT):Dual-Model Framework for Efficient Long-Context Inference
- Authors: Wenxuan Xie, Yujia Wang, Xin Tan, Chaochao Lu, Xia Hu, Xuhong Wang,
- Abstract要約: DRIFTは、推論プロセスから知識抽出を明示的に分離するために設計された、新しいデュアルモデルアーキテクチャである。
静的プロンプト圧縮とは異なり、DRIFTは軽量な知識モデルを用いて文書チャンクを動的に圧縮し、クエリで条件付けられた暗黙の事実トークンに変換する。
我々のアプローチは、大規模言語モデルの効果的なコンテキストウィンドウと推論能力を拡張するためのスケーラブルで効率的なパラダイムを提供します。
- 参考スコア(独自算出の注目度): 45.760483245296456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of extensive, dynamic knowledge into Large Language Models (LLMs) remains a significant challenge due to the inherent entanglement of factual data and reasoning patterns. Existing solutions, ranging from non-parametric Retrieval-Augmented Generation (RAG) to parametric knowledge editing, are often constrained in practice by finite context windows, retriever noise, or the risk of catastrophic forgetting. In this paper, we propose DRIFT, a novel dual-model architecture designed to explicitly decouple knowledge extraction from the reasoning process. Unlike static prompt compression, DRIFT employs a lightweight knowledge model to dynamically compress document chunks into implicit fact tokens conditioned on the query. These dense representations are projected into the reasoning model's embedding space, replacing raw, redundant text while maintaining inference accuracy. Extensive experiments show that DRIFT significantly improves performance on long-context tasks, outperforming strong baselines among comparably sized models. Our approach provides a scalable and efficient paradigm for extending the effective context window and reasoning capabilities of LLMs. Our code is available at https://github.com/Lancelot-Xie/DRIFT.
- Abstract(参考訳): 大規模言語モデル(LLM)への広範な動的知識の統合は、事実データと推論パターンが本質的に絡み合っているため、依然として大きな課題である。
非パラメトリック検索・拡張生成(RAG)からパラメトリック知識編集まで、既存のソリューションは、実際には有限コンテキストウィンドウ、レトリバーノイズ、破滅的な忘れのリスクによって制約されることが多い。
本稿では,知識抽出を推論プロセスから明確に切り離すために設計された,新しいデュアルモデルアーキテクチャであるDRIFTを提案する。
静的プロンプト圧縮とは異なり、DRIFTは軽量な知識モデルを用いて文書チャンクを動的に圧縮し、クエリで条件付けられた暗黙の事実トークンに変換する。
これらの密度の高い表現は推論モデルの埋め込み空間に投影され、推論精度を維持しながら生の冗長テキストを置き換える。
拡張実験により、DRIFTは長文タスクの性能を著しく改善し、比較可能なサイズのモデル間で強いベースラインを上回ります。
我々のアプローチは、LLMの効果的なコンテキストウィンドウと推論能力を拡張するためのスケーラブルで効率的なパラダイムを提供する。
私たちのコードはhttps://github.com/Lancelot-Xie/DRIFT.comで公開されています。
関連論文リスト
- Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement [22.386864304549285]
Retrieval-augmented Generation (RAG)は、関連するドキュメントを外部ソースから取得し、コンテキストに組み込むことで、大きな言語モデル(LLM)を強化する。
文書をパラメトリックな知識に効率的に変換する軽量パラメータトランスレータモデルを活用する新しいフレームワークであるDynamic Parametric RAG(DyPRAG)を提案する。
論文 参考訳(メタデータ) (2025-03-31T09:46:35Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - AutoRE: Document-Level Relation Extraction with Large Language Models [27.426703757501507]
我々は、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンド・ツー・エンドのDocREモデルであるAutoREを紹介する。
既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。
RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、最先端の結果が得られました。
論文 参考訳(メタデータ) (2024-03-21T23:48:21Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning [27.224364543134094]
本稿では,論理駆動型データ拡張手法AMR-LDAを提案する。
AMR-LDAは元のテキストを抽象的意味表現(AMR)グラフに変換する。
修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。
論文 参考訳(メタデータ) (2023-05-21T23:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。