論文の概要: SRAS: A Lightweight Reinforcement Learning-based Document Selector for Edge-Native RAG Pipelines
- arxiv url: http://arxiv.org/abs/2601.01785v1
- Date: Mon, 05 Jan 2026 04:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.765057
- Title: SRAS: A Lightweight Reinforcement Learning-based Document Selector for Edge-Native RAG Pipelines
- Title(参考訳): SRAS:エッジNative RAGパイプラインのための軽量強化学習ベースのドキュメントセレクタ
- Authors: Rajiv Chaitanya Muttur,
- Abstract要約: 本稿では、RL(Regress Learning)を用いて学習した軽量文書セレクタであるSRAS(Sparse Reward-Aware Selector)を提案する。
SRASは、PPO(Proximal Policy Optimization)を用いてコンパクトな(0.76MB)ポリシーを学び、Relaxed F1とBERTScoreを組み合わせたハイブリッド報酬信号で導かれる。
この研究は、RLベースのドキュメント選択が超軽量でレイテンシを認識し、オンデバイスRAGパイプラインに有効であることを示す最初のものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems often rely on fixed top-k document selection mechanisms that ignore downstream generation quality and impose computational overheads. We propose SRAS (Sparse Reward-Aware Selector), a lightweight document selector trained via reinforcement learning (RL) for edge-native RAG deployment. Unlike prior RL-based retrievers that assume large memory and latency budgets, SRAS learns a compact (~0.76MB) policy using Proximal Policy Optimization (PPO), guided by a hybrid reward signal combining Relaxed F1 and BERTScore. Our method operates under tight token and compute constraints, maintaining <1s latency on CPU. SRAS outperforms supervised and random selectors on a synthetic QA benchmark, and generalizes to real-world data, achieving BERTScore F1 of 0.8546 on SQuAD v2 without domain-specific tuning. This work is the first to demonstrate that RL-based document selection can be made ultra-lightweight, latency-aware, and effective for on-device RAG pipelines.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、ダウンストリーム生成の品質を無視し、計算オーバーヘッドを課す固定されたトップk文書選択機構に依存することが多い。
本稿では、RL(Regress Learning)を用いて学習した軽量文書セレクタであるSRAS(Sparse Reward-Aware Selector)を提案する。
以前のRLベースのレトリバーでは大きなメモリとレイテンシの予算を前提としていたが、SRASはPPO(Proximal Policy Optimization)を使ってコンパクトな(~0.76MB)ポリシーを学習し、Relaxed F1とBERTScoreを組み合わせたハイブリッド報酬信号で導かれる。
提案手法は,CPU上での<1sレイテンシを保ちながら,厳密なトークンと計算制約の下で動作する。
SRASは、合成QAベンチマークで教師付きおよびランダムセレクタより優れ、実世界のデータに一般化し、SQuAD v2ではドメイン固有のチューニングなしでBERTScore F1の0.8546を達成する。
この研究は、RLベースのドキュメント選択が超軽量でレイテンシを認識し、オンデバイスRAGパイプラインに有効であることを示す最初のものである。
関連論文リスト
- DyKnow-RAG: Dynamic Knowledge Utilization Reinforcement Framework for Noisy Retrieval-Augmented Generation in E-commerce Search Relevance [7.605150700675235]
DyKnow-RAGは、グループ相対ポリシー最適化に基づいて構築された動的ノイズ-RAGフレームワークである。
2つのロールアウトグループ(外部コンテキストと単一の取得チャンク)をトレーニングし、後続駆動によるグループ間アドバンテージスケーリングを適用する。
タオバオの生産関連システムに配備され、生の交通に供されている。
論文 参考訳(メタデータ) (2025-10-13T08:08:59Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - LLM-Based Emulation of the Radio Resource Control Layer: Towards AI-Native RAN Protocols [28.04609776570199]
大型AIモデル(LAM)はAI-Native Air Interface(AI-AI)の重要な実現要因である
本稿では,デコーダのみのLAMを用いた無線リソース制御層の最初の標準準拠エミュレーションを提案する。
その結果,LSMをプロトコル対応推論で拡張すると,制御プレーンの手順を直接オーケストレーションできることがわかった。
論文 参考訳(メタデータ) (2025-05-22T15:55:56Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - SRL-SOA: Self-Representation Learning with Sparse 1D-Operational
Autoencoder for Hyperspectral Image Band Selection [24.003035094461666]
Sparse 1D-Operational Autoencoder (SOA)を用いた自己表現学習(SRL)を提案する。
提案されたSLR-SOAアプローチは、データを疎結合に表現する表現領域を学ぶように設計された、新しいオートエンコーダモデルであるSOAを導入している。
提案するSRL-SOAバンド選択手法は,インドパインズやサリナスAを含む2つのHSIデータよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-20T22:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。