論文の概要: Separating Semantic Competition from Context Length in RAG Reading
- arxiv url: http://arxiv.org/abs/2605.27294v1
- Date: Tue, 26 May 2026 17:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.479584
- Title: Separating Semantic Competition from Context Length in RAG Reading
- Title(参考訳): RAG読解における文脈長からのセマンティック競争の分離
- Authors: Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh, Rohit Alekar, Cien Zhang, Svetlana Karslioglu, Akash Vishwakarma,
- Abstract要約: 検索拡張生成(RAG)システムは、正しいパスが取得された場合でも、誤って応答することができる。
我々は、RAG読取のためのマッチング制御プロトコルを導入し、実演する。
パスの数と長さを固定するが、競争力の低いリアルパスでハードコンペティターを置き換える。
- 参考スコア(独自算出の注目度): 1.3192560874022086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems can respond incorrectly even when the correct passage was retrieved. The model must still read the retrieved passages and identify which one contains the answer among others that look relevant. This passage-reading model is called the reader. Does it fail simply because the context is longer or because the other passages genuinely compete with the correct one? We introduce and demonstrate a matched-control protocol for RAG reading: we keep the number and length of passages fixed, but replace hard competitors with less competitive real passages. We apply this control across two compact open models on SQuAD. This replacement partially restores performance, with the strongest effects on F1 and answer inclusion. For Phi-2, this recovers +6.0 EM points, +7.0 answer-inclusion points, and +0.057 F1. For Qwen2.5-1.5B, it recovers +4.5 EM points, +9.0 answer-inclusion points, and +0.068 F1. To track how performance changes as competitors accumulate, we also report retention curves and summarize them with a right-censored half-life when the curves do not cross half-retention. Together, these results show the protocol isolates a competition effect distinct from context length, though the effect is clearer for F1 and answer inclusion than for exact match, and also varies with snippet length.
- Abstract(参考訳): 検索拡張生成(RAG)システムは、正しいパスが取得された場合でも、誤って応答することができる。
モデルはまだ検索済みのパスを読み、どのパスに関連性のある回答が含まれているかを特定する必要があります。
この通訳読解モデルは読み手(Reader)と呼ばれる。
単にコンテキストが長いから、あるいは他のパスが真に正しいパスと競合するため、失敗するのでしょうか?
我々はRAG読解のための整合制御プロトコルを導入し、実証する: パスの数と長さを固定するが、ハードコンペティターを競争力の少ないリアルパスに置き換える。
この制御をSQuAD上の2つのコンパクトオープンモデルに適用する。
この置換は部分的に性能を回復し、F1と答えの包含に最も強い影響を与える。
Phi-2 の場合、これは +6.0 EM 点、 +7.0 答え包含点、 +0.057 F1 を回復する。
Qwen2.5-1.5B では +4.5 EM 点、 +9.0 答え包含点、 +0.068 F1 を回復する。
コンペティターが蓄積するパフォーマンスの変化を追跡するため、リテンション曲線を報告し、曲線が半リテンションを越えない場合に、それを右半リテンションで要約する。
これらの結果から, コンテクスト長と異なる競合効果を分離するが, F1 と解答包含については, 正確な一致よりも明瞭であり, スニペット長によっても異なる。
関連論文リスト
- Where Does Long-Context Supervision Actually Go? Effective-Context Exposure Balancing [6.488481641971471]
長いコンテキスト適応はしばしばウィンドウスケーリングと見なされるが、トークンレベルの監視ミスマッチを見逃す。
我々は、長期有効コンテキスト目標に余分な重みを割り当てる監視割当目的であるEXACTを紹介する。
長いコンテキスト適応は、いかに強いトレーニングが長いコンテキスト予測を監督するかに依存します。
論文 参考訳(メタデータ) (2026-05-11T13:23:21Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Association Is Not Similarity: Learning Corpus-Specific Associations for Multi-Hop Retrieval [0.0]
Association-Augmented Retrievalは埋め込み空間における通路間の連想関係を学習する。
HotpotQAでは、AARは評価セットチューニングなしでRecall@5を0.831から0.916(+8.6ポイント)に改善した。
MuSiQueでは、AARはトランスダクティブ設定で+10.1点を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:02:53Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文 参考訳(メタデータ) (2025-03-11T04:43:33Z) - Power in Numbers: Robust reading comprehension by finetuning with four
adversarial sentences per example [0.0]
私は新しいモデルELECTRA-Smallで過去の敵研究を再現します。
私は、SQuAD v1.1トレーニング例のモデルに、文脈段落に付加された1~5つの逆文を微調整します。
このモデルでは、多くの評価データセットでF1スコアが70%以上に達し、複数の追加および事前修正された逆数文がある。
論文 参考訳(メタデータ) (2024-01-18T15:59:42Z) - Detrimental Contexts in Open-Domain Question Answering [9.059854023578508]
質問応答に使用される検索テーマのアーキテクチャに対して,パスが有害な影響を及ぼすかを分析する。
この結果から,2つの人気のあるQAデータセットにおいて,有害経路をフィルタリングすることにより,モデル精度を10%向上できることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T11:45:16Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。