論文の概要: EmbeddingRWKV: State-Centric Retrieval with Reusable States
- arxiv url: http://arxiv.org/abs/2601.07861v1
- Date: Sat, 10 Jan 2026 03:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.877953
- Title: EmbeddingRWKV: State-Centric Retrieval with Reusable States
- Title(参考訳): EmbeddingRWKV: 再利用可能なステートによるステート中心検索
- Authors: Haowen Hou, Jie Yang,
- Abstract要約: State-Centric Retrievalは、埋め込みモデルと再ランカを接続するブリッジとして"states"を利用する統一的な検索パラダイムである。
テストの結果,システム全体の効率を大幅に向上させながら,高品質な検索と再ランク付けを実現していることがわかった。
- 参考スコア(独自算出の注目度): 12.535698360263988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Retrieval-Augmented Generation (RAG) systems typically employ a traditional two-stage pipeline: an embedding model for initial retrieval followed by a reranker for refinement. However, this paradigm suffers from significant inefficiency due to the lack of shared information between stages, leading to substantial redundant computation. To address this limitation, we propose \textbf{State-Centric Retrieval}, a unified retrieval paradigm that utilizes "states" as a bridge to connect embedding models and rerankers. First, we perform state representation learning by fine-tuning an RWKV-based LLM, transforming it into \textbf{EmbeddingRWKV}, a unified model that serves as both an embedding model and a state backbone for extracting compact, reusable states. Building upon these reusable states, we further design a state-based reranker to fully leverage precomputed information. During reranking, the model processes only query tokens, decoupling inference cost from document length and yielding a 5.4$\times$--44.8$\times$ speedup. Furthermore, we observe that retaining all intermediate layer states is unnecessary; with a uniform layer selection strategy, our model maintains 98.62\% of full-model performance using only 25\% of the layers. Extensive experiments demonstrate that State-Centric Retrieval achieves high-quality retrieval and reranking results while significantly enhancing overall system efficiency. Code is available at \href{https://github.com/howard-hou/EmbeddingRWKV}{our GitHub repository}.
- Abstract(参考訳): 現在のRAG(Retrieval-Augmented Generation)システムでは、通常は従来の2段階のパイプラインを使用する。
しかし、このパラダイムは、ステージ間で情報の共有が欠如しているため、かなりの非効率さに悩まされ、かなりの冗長な計算に繋がる。
この制限に対処するために、埋め込みモデルと再ランカを接続するブリッジとして「状態」を利用する統一的な検索パラダイムである「textbf{State-Centric Retrieval}」を提案する。
まず,RWKV ベースの LLM を微調整して状態表現学習を行い,それを \textbf{EmbeddingRWKV} に変換する。
これらの再利用可能な状態に基づいて、事前計算された情報を完全に活用する状態ベースのリランカーをさらに設計する。
再ランクの間、モデルプロセスはクエリトークンのみを処理し、推論コストをドキュメント長から切り離し、5.4$\times$--44.8$\times$スピードアップをもたらす。
さらに、すべての中間層状態を維持することは不要であり、均一な層選択戦略により、このモデルでは、全モデル性能の98.62 %を、わずか25 %で維持する。
大規模実験により, システム全体の効率を大幅に向上させながら, 高品質な検索と再評価を行うことができた。
コードは \href{https://github.com/howard-hou/EmbeddingRWKV}{our GitHub repository} で公開されている。
関連論文リスト
- DREAMSTATE: Diffusing States and Parameters for Recurrent Large Language Models [0.7364191922317778]
リカレントニューラルネットワーク(RNN)は、その強力な短距離モデリング機能と効率的な固定サイズ状態によって区別される。
しかし、編集可能な知識表現としての内部状態についての研究は著しく欠落している。
まず、DREAMSTATEフレームワークを提案することにより、RWKV状態の表現特性について検討する。
我々はRNNの局所的な利点とグローバルな文脈適応性を組み合わせた新しいハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-01-27T05:42:25Z) - Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Streamlining the Collaborative Chain of Models into A Single Forward Pass in Generation-Based Tasks [13.254837575157786]
Retrieval-Augmented Generation(RAG)やエージェントベースのフレームワークでは、"Chain of Models"アプローチが広く使われている。
最近の進歩は、複数のタスクに適応する共有ベースモデルを可能にするプロンプトチューニングを適用することで、この問題に対処しようとしている。
本稿では,隠れ状態の共有を可能にする新しいプロンプトチューニング手法であるFTHSSを紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:37:14Z) - Forget Forgetting: Continual Learning in a World of Abundant Memory [55.64184779530581]
継続的な学習は伝統的に、模範記憶の最小化に重点を置いてきた。
本稿では、より現実的な体制を探求することによって、このパラダイムに挑戦する。
モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、中心的な課題が安定性から可塑性へと変化していくことが分かっています。
論文 参考訳(メタデータ) (2025-02-11T05:40:52Z) - Layer-Adaptive State Pruning for Deep State Space Models [1.5749416770494706]
SSMのための構造化プルーニング法、Layer-Adaptive STate pruning (LAST) を提供する。
最後のスコアはサブシステムの$mathcalH_infty$ノルムと層次エネルギー正規化を用いて評価される。
平均的な33%の州は、再学習せずに、0.52%の精度で性能を保ち、マルチインプットのマルチアウトプットSSMでは精度が低下することを示した。
論文 参考訳(メタデータ) (2024-11-05T05:50:51Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Surface-Based Retrieval Reduces Perplexity of Retrieval-Augmented
Language Models [1.0552465253379135]
本研究では,現状のRetroモデルについて検討し,その性能向上が表面レベルの類似性によってよりよく説明できることを示した。
これに触発されて、私たちはRetroのセマンティック検索をBM25に基づく表面レベルの手法に置き換え、パープレキシティの大幅な低減を実現した。
論文 参考訳(メタデータ) (2023-05-25T16:56:26Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - State estimation with limited sensors -- A deep learning based approach [0.0]
本稿では,シーケンシャルデータから学習する新しいディープラーニングに基づく状態推定フレームワークを提案する。
逐次データを利用することで,1~2つのセンサのみの状態回復が可能になることを示す。
論文 参考訳(メタデータ) (2021-01-27T16:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。