論文の概要: GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression
- arxiv url: http://arxiv.org/abs/2605.09100v2
- Date: Tue, 12 May 2026 09:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.946989
- Title: GRC: Unifying Reasoning-Driven Generation, Retrieval and Compression
- Title(参考訳): GRC: 推論駆動生成,検索,圧縮の統合
- Authors: Zhongtao Miao, Qiyu Wu, Yoshimasa Tsuruoka,
- Abstract要約: 我々は、推論駆動型生成、推論強化テキスト表現、コンテキスト圧縮タスクを橋渡しするGRCというトレーニングフレームワークを提案する。
トレーニングされたモデルは、1回のフォワードパスで3つの目標を達成することができる。
このフレームワークの設計により、テキスト埋め込みの新しいパラダイムが実現される。
- 参考スコア(独自算出の注目度): 11.477080415375097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text embedding and generative tasks are usually trained separately based on large language models (LLMs) nowadays. This causes a large amount of training cost and deployment effort. Context compression is also a challenging and pressing task, which is vital to reasoning-driven generation, and agentic tasks requiring long context and continual learning. In this paper, we explore how to unify reasoning-driven generation, reasoning-enhanced text representation and context compression tasks in one forward pass for LLMs. Through meta latent tokens and a unified generative, representative and compressive tuning approach, we propose a training framework named GRC that bridges the three tasks. The trained models can accomplish three objectives in a single forward pass while maintaining modular, LEGO-style flexibility during inference. This design greatly reduces the deployment effort for retrieval-augmented generation (RAG) and achieves efficient inference and three times data utilization during training. Furthermore, this framework design enables a new paradigm for text embedding: self-reason-latent embeds, and a new generation paradigm, latent memory-augmented generation, where compressed and internalized KV cache with O(1) length is used as the updatable memory. We also propose hybrid paged attention to speed up the inference of our models. Extensive experiments on reasoning-intensive retrieval benchmarks, generative tasks, document compression, latency evaluation, and RAG settings demonstrate the effectiveness of our method and may shed light on the truly unified model that can handle reasoning-driven generation, embedding and compression tasks seamlessly.
- Abstract(参考訳): テキスト埋め込みと生成タスクは、現在、大きな言語モデル(LLM)に基づいて個別に訓練されている。
これにより、大量のトレーニングコストとデプロイメントの労力が発生します。
コンテキスト圧縮は、推論駆動型生成や、長時間のコンテキストと継続的な学習を必要とするエージェント的なタスクに不可欠である、難しくて押しやすいタスクでもある。
本稿では,LLMの1つのフォワードパスにおいて,推論駆動生成,推論強化テキスト表現,コンテキスト圧縮タスクを統一する方法について検討する。
メタ潜在トークンと、生成的、代表的、圧縮的なチューニングアプローチを通じて、3つのタスクをブリッジするGRCというトレーニングフレームワークを提案する。
トレーニングされたモデルは、1回のフォワードパスで3つの目標を達成することができる。
この設計により、RAG(Research-augmented Generation)の展開作業を大幅に削減し、効率的な推論と3倍のデータ利用を実現する。
さらに、このフレームワークの設計により、テキスト埋め込みの新しいパラダイムが実現されている: セルフリアソン遅延埋め込みと、O(1)長の圧縮および内部化されたKVキャッシュをアップダブルメモリとして使用する新しい世代パラダイム、潜在メモリ拡張生成である。
また、モデルの推論を高速化するために、ハイブリッドページアテンションを提案する。
推論集約型検索ベンチマーク、生成タスク、文書圧縮、遅延評価、RAG設定に関する大規模な実験は、我々の手法の有効性を示し、推論駆動生成、埋め込みおよび圧縮タスクをシームレスに処理できる真に統一されたモデルに光を当てる可能性がある。
関連論文リスト
- RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する
強化学習(RL)による多ターン推論へのテキストベースRAGの進歩
LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文 参考訳(メタデータ) (2025-12-10T10:05:31Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Language Models "Grok" to Copy [36.50007948478452]
本稿では,先行する文脈からテキストをコピーする能力に着目し,言語モデルの事前学習のダイナミクスについて検討する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を発達させる,という新たな視点を提案する。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングに有用な洞察をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2024-09-14T03:11:00Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。