論文の概要: Can Small Language Models Use What They Retrieve? An Empirical Study of Retrieval Utilization Across Model Scale
- arxiv url: http://arxiv.org/abs/2603.11513v1
- Date: Thu, 12 Mar 2026 03:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.855755
- Title: Can Small Language Models Use What They Retrieve? An Empirical Study of Retrieval Utilization Across Model Scale
- Title(参考訳): 小言語モデルは検索するものを利用できるか? : モデルスケール全体での検索利用に関する実証的研究
- Authors: Sanchit Pandey,
- Abstract要約: アーキテクチャファミリSmolLM2 Qwen2.5とLlama 3.1の5つのモデルサイズを360Mから8Bまで評価した。
その結果、7Bパラメータ以下のモデルでは、RAGの主な制限は、検索品質よりもコンテキスト利用であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmented generation RAG is widely deployed to improve factual accuracy in language models yet it remains unclear whether smaller models of size 7B parameters or less can effectively utilize retrieved information. To investigate this question we evaluate five model sizes from 360M to 8B across three architecture families SmolLM2 Qwen2.5 and Llama 3.1 under four retrieval conditions including no retrieval BM25 dense retrieval using E5 large v2 and oracle retrieval where the retrieved passage is guaranteed to contain the answer. We introduce a parametric knowledge split that separates questions a model can already answer from those that require external knowledge which allows us to isolate utilization failure from retrieval quality failure. We find three main results. First even with oracle retrieval models of size 7B or smaller fail to extract the correct answer 85 to 100 percent of the time on questions they cannot answer alone which indicates a fundamental utilization bottleneck. Second adding retrieval context destroys 42 to 100 percent of answers the model previously knew suggesting a distraction effect driven by the presence of context rather than its quality. Third an error analysis of 2588 oracle failures shows that the dominant failure mode is irrelevant generation where the model ignores the provided context entirely. These patterns hold across multiple prompt templates and retrieval methods. The results indicate that for models below 7B parameters the main limitation of RAG is context utilization rather than retrieval quality and that deploying RAG at this scale can lead to a net negative trade off under standard evaluation conditions.
- Abstract(参考訳): 検索用拡張生成RAGは,言語モデルの事実精度向上のために広く展開されているが,7Bパラメータの小さいモデルで検索した情報を有効に活用できるかどうかは不明である。
本研究では, 3 つのアーキテクチャファミリ SmolLM2 Qwen2.5 と Llama 3.1 の5つのモデルサイズを, E5 の大きな v2 を用いた BM25 の高密度検索や, 検索された経路が応答を含むことが保証されたオラクル検索を含む4 つの検索条件下で評価する。
我々は、モデルが既に解答できる質問と外部知識を必要とする質問を分離するパラメトリック知識分割を導入し、検索品質の失敗から利用障害を分離できるようにする。
主な結果は3つある。
第一に、7B以下のオラクル検索モデルであっても、答えることができない質問の85%から100%の正解を抽出することができず、これは基本的な利用ボトルネックを示している。
第2に検索コンテキストを追加することで、モデルが以前知っていた回答の42~100%が破壊される。
第3に、2588のオラクル故障のエラー解析は、モデルが提供されたコンテキストを完全に無視する、支配的障害モードが無関係な生成であることを示している。
これらのパターンは複数のプロンプトテンプレートと検索方法にまたがる。
その結果、7Bパラメータ以下のモデルでは、RAGの主な制限は、検索品質よりもコンテキスト利用であり、RAGをこの規模で展開することで、標準評価条件下での負のトレードオフにつながる可能性が示唆された。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Think Before You Retrieve: Learning Test-Time Adaptive Search with Small Language Models [28.80331720382804]
我々は,学習した検索戦略を通じて,コンパクトなモデルによる反復的検索を可能にするトレーニングフレームワークOrionを紹介する。
Orionは、合成軌道生成と教師付き微調整を組み合わせることで、モデルの多様な探索パターンを促進する。
トレーニングデータの3%しか使用できないにも関わらず、私たちの1.2BモデルはSciFactで77.6%の成功を達成しています。
論文 参考訳(メタデータ) (2025-11-10T19:49:55Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models [0.18846515534317265]
汎用大規模言語モデル(LLM)は、しばしば幻覚に苦しむ。
この課題は、応答の正確さ、妥当性、忠実さを維持しながらドメイン固有の知識を統合するシステムの必要性を強調している。
本研究は,114サラーの意味,歴史的文脈,質など,クラーニック・サラーの記述的データセットを利用する。
モデルは、文脈関連性、回答忠実性、回答関連性という、人間の評価者によって設定された3つの重要な指標を用いて評価される。
論文 参考訳(メタデータ) (2025-03-20T13:26:30Z) - Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
文脈充足度に基づく誤りの階層化により,コンテキストが十分であれば,より高いベースライン性能を持つ大規模モデルの方がクエリの応答に優れることがわかった。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-09T05:06:39Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。