論文の概要: Cost-Aware Retrieval-Augmentation Reasoning Models with Adaptive Retrieval Depth
- arxiv url: http://arxiv.org/abs/2510.15719v1
- Date: Fri, 17 Oct 2025 15:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.667775
- Title: Cost-Aware Retrieval-Augmentation Reasoning Models with Adaptive Retrieval Depth
- Title(参考訳): 適応型検索深度を考慮したコスト対応検索拡張推論モデル
- Authors: Helia Hashemi, Victor Rühle, Saravan Rajmohan,
- Abstract要約: 本稿では,検索した文書リストの長さを動的に調整する検索拡張推論モデルを提案する。
我々は、強化学習による効率的な検索強化推論モデルの訓練のための費用対効果関数を開発する。
提案手法を7つの公開質問応答データセットで評価し,有効性を損なうことなく,高い効率性を示す。
- 参考スコア(独自算出の注目度): 18.05278637533445
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning models have gained significant attention due to their strong performance, particularly when enhanced with retrieval augmentation. However, these models often incur high computational costs, as both retrieval and reasoning tokens contribute substantially to the overall resource usage. In this work, we make the following contributions: (1) we propose a retrieval-augmented reasoning model that dynamically adjusts the length of the retrieved document list based on the query and retrieval results; (2) we develop a cost-aware advantage function for training of efficient retrieval-augmented reasoning models through reinforcement learning; and (3) we explore both memory- and latency-bound implementations of the proposed cost-aware framework for both proximal and group relative policy optimization algorithms. We evaluate our approach on seven public question answering datasets and demonstrate significant efficiency gains, without compromising effectiveness. In fact, we observed that the model latency decreases by ~16-20% across datasets, while its effectiveness increases by ~5% on average, in terms of exact match.
- Abstract(参考訳): 推論モデルは、特に検索強化によって強化された場合、その性能が強いため、大きな注目を集めている。
しかしながら、これらのモデルは、検索と推論トークンの両方がリソース全体の使用に大きく貢献するため、しばしば高い計算コストを発生させる。
本研究では,(1)検索および検索結果に基づいて検索した文書リストの長さを動的に調整する検索拡張推論モデル,(2)強化学習による効率的な検索拡張推論モデルのトレーニングを行うためのコストアウェア・アドバンテージ機能,(3)近近時・グループ相対ポリシー最適化アルゴリズムのためのメモリベースおよびレイテンシベースのフレームワークの実装について検討する。
提案手法を7つの公開質問応答データセットで評価し,有効性を損なうことなく,高い効率性を示す。
実際、モデル遅延はデータセット全体で約16~20%減少し、その有効性は正確な一致で平均約5%向上する。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Studying the Role of Input-Neighbor Overlap in Retrieval-Augmented Language Models Training Efficiency [3.5634988336513587]
本研究では,クエリとコンテキストの重なり合いが,トレーニングと推論の両方のモデル性能に与える影響について検討する。
実験の結果,オーバーラップの増加は最初は最小限の効果を持つが,テスト時間のパープレキシティが大幅に向上し,モデルが臨界しきい値を超える学習を加速することがわかった。
論文 参考訳(メタデータ) (2025-05-20T12:58:07Z) - Reasoning of Large Language Models over Knowledge Graphs with Super-Relations [53.14275361052276]
本稿では,ReKnoSフレームワークを提案する。
我々のフレームワークの主な利点は、スーパーリレーションを通して複数のリレーションパスを含めることである。
その結果、ReKnoSは既存の最先端ベースラインよりも優れた性能を示し、平均精度は2.92%向上した。
論文 参考訳(メタデータ) (2025-03-28T06:11:04Z) - Reqo: A Robust and Explainable Query Optimization Cost Model [2.184775414778289]
GRU(Gated Recurrent Units)によって集約された双方向グラフニューラルネットワーク(Bi-GNN)に基づくツリーモデルアーキテクチャを提案する。
我々は,確率的MLを用いて,コスト見積の不確実性を効果的に定量化する,新しい学習とランクのコストモデルを実装した。
さらに,学習型コストモデルに特化して設計された最初の説明可能性手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:48:51Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback [2.07180164747172]
本稿では,RLHF(Reinforcement Learning from Human Feedback)の費用対効果について述べる。
RLHFは大規模言語モデル(LLM)の出力よりも人間の好みのデータセットを活用する
本稿では,RLHFのコスト効率を高める上で,オークション機構の導入が重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-09-27T03:15:07Z) - Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation [3.2134014920850364]
大型言語モデル(LLM)は時相の誤りや幻覚的内容の生成といった課題に直面していることが多い。
二重角評価による検索拡張生成フレームワーク textitThink-then-Act を提案する。
論文 参考訳(メタデータ) (2024-06-18T20:51:34Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。