論文の概要: EmbeddingRWKV: State-Centric Retrieval with Reusable States
- arxiv url: http://arxiv.org/abs/2601.07861v1
- Date: Sat, 10 Jan 2026 03:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.877953
- Title: EmbeddingRWKV: State-Centric Retrieval with Reusable States
- Title(参考訳): EmbeddingRWKV: 再利用可能なステートによるステート中心検索
- Authors: Haowen Hou, Jie Yang,
- Abstract要約: State-Centric Retrievalは、埋め込みモデルと再ランカを接続するブリッジとして"states"を利用する統一的な検索パラダイムである。
テストの結果,システム全体の効率を大幅に向上させながら,高品質な検索と再ランク付けを実現していることがわかった。
- 参考スコア(独自算出の注目度): 12.535698360263988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Retrieval-Augmented Generation (RAG) systems typically employ a traditional two-stage pipeline: an embedding model for initial retrieval followed by a reranker for refinement. However, this paradigm suffers from significant inefficiency due to the lack of shared information between stages, leading to substantial redundant computation. To address this limitation, we propose \textbf{State-Centric Retrieval}, a unified retrieval paradigm that utilizes "states" as a bridge to connect embedding models and rerankers. First, we perform state representation learning by fine-tuning an RWKV-based LLM, transforming it into \textbf{EmbeddingRWKV}, a unified model that serves as both an embedding model and a state backbone for extracting compact, reusable states. Building upon these reusable states, we further design a state-based reranker to fully leverage precomputed information. During reranking, the model processes only query tokens, decoupling inference cost from document length and yielding a 5.4$\times$--44.8$\times$ speedup. Furthermore, we observe that retaining all intermediate layer states is unnecessary; with a uniform layer selection strategy, our model maintains 98.62\% of full-model performance using only 25\% of the layers. Extensive experiments demonstrate that State-Centric Retrieval achieves high-quality retrieval and reranking results while significantly enhancing overall system efficiency. Code is available at \href{https://github.com/howard-hou/EmbeddingRWKV}{our GitHub repository}.
- Abstract(参考訳): 現在のRAG(Retrieval-Augmented Generation)システムでは、通常は従来の2段階のパイプラインを使用する。
しかし、このパラダイムは、ステージ間で情報の共有が欠如しているため、かなりの非効率さに悩まされ、かなりの冗長な計算に繋がる。
この制限に対処するために、埋め込みモデルと再ランカを接続するブリッジとして「状態」を利用する統一的な検索パラダイムである「textbf{State-Centric Retrieval}」を提案する。
まず,RWKV ベースの LLM を微調整して状態表現学習を行い,それを \textbf{EmbeddingRWKV} に変換する。
これらの再利用可能な状態に基づいて、事前計算された情報を完全に活用する状態ベースのリランカーをさらに設計する。
再ランクの間、モデルプロセスはクエリトークンのみを処理し、推論コストをドキュメント長から切り離し、5.4$\times$--44.8$\times$スピードアップをもたらす。
さらに、すべての中間層状態を維持することは不要であり、均一な層選択戦略により、このモデルでは、全モデル性能の98.62 %を、わずか25 %で維持する。
大規模実験により, システム全体の効率を大幅に向上させながら, 高品質な検索と再評価を行うことができた。
コードは \href{https://github.com/howard-hou/EmbeddingRWKV}{our GitHub repository} で公開されている。
関連論文リスト
- Forget Forgetting: Continual Learning in a World of Abundant Memory [55.64184779530581]
継続的な学習は伝統的に、模範記憶の最小化に重点を置いてきた。
本稿では、より現実的な体制を探求することによって、このパラダイムに挑戦する。
モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、中心的な課題が安定性から可塑性へと変化していくことが分かっています。
論文 参考訳(メタデータ) (2025-02-11T05:40:52Z) - Layer-Adaptive State Pruning for Deep State Space Models [1.5749416770494706]
SSMのための構造化プルーニング法、Layer-Adaptive STate pruning (LAST) を提供する。
最後のスコアはサブシステムの$mathcalH_infty$ノルムと層次エネルギー正規化を用いて評価される。
平均的な33%の州は、再学習せずに、0.52%の精度で性能を保ち、マルチインプットのマルチアウトプットSSMでは精度が低下することを示した。
論文 参考訳(メタデータ) (2024-11-05T05:50:51Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Surface-Based Retrieval Reduces Perplexity of Retrieval-Augmented
Language Models [1.0552465253379135]
本研究では,現状のRetroモデルについて検討し,その性能向上が表面レベルの類似性によってよりよく説明できることを示した。
これに触発されて、私たちはRetroのセマンティック検索をBM25に基づく表面レベルの手法に置き換え、パープレキシティの大幅な低減を実現した。
論文 参考訳(メタデータ) (2023-05-25T16:56:26Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。