論文の概要: StepGap: A Hybrid NLI-LLM Checker for Step-Level Evidence-Gap Detectionin Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2605.24733v1
- Date: Sat, 23 May 2026 20:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.353068
- Title: StepGap: A Hybrid NLI-LLM Checker for Step-Level Evidence-Gap Detectionin Multi-Hop Question Answering
- Title(参考訳): StepGap: マルチホップ質問応答におけるステップレベルエビデンス・ギャップ検出のためのハイブリッドNLI-LLMチェッカー
- Authors: Yuelyu Ji, Zhuochun Li, Hui Ji, Daqing He,
- Abstract要約: StepGapは、マルチホップQAにおけるステップレベルのエビデンスギャップを検出するハイブリッドNLI-LLM決定ツリーである。
Qwen2.5-7B-Instruct Exact Matchを32.1pm0.3$から35.4pm0.9$に改良した。
- 参考スコア(独自算出の注目度): 28.730693625995215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present \textbf{StepGap}, a hybrid NLI-LLM decision tree that detects step-level evidence gaps in multi-hop QA and emits one of three typed labels: \textsc{Contradicted Claim} (CC), \textsc{Irrelevant Evidence} (IE), or \textsc{Missing Bridge} (MB), each tied to a concrete repair action. On 82 multi-hop questions (181 annotated steps, $κ{=}0.704$), StepGap reaches sF1$=$72.0, within the bootstrap confidence interval of an LLM-only baseline (70.1) but with a more decomposable structure: every StepGap stage \emph{hurts} F1 when removed, while three of four LLM-only removals \emph{improve} F1 -- a sign of \emph{competing-error cancellation}, where internal stages mask each other's errors. We further expose a \emph{Q-F1 trap}: question-level F1 is mechanically inflated by checkers that flag every step, making step-level F1 the necessary diagnostic. Used as a typed GRPO process reward, StepGap improves Qwen2.5-7B-Instruct Exact Match from $32.1{\pm}0.3$ to $35.4{\pm}0.9$ across three seeds, with the single-run comparison showing a $+5.6$ Avg EM gain over the matched Search-R1 GRPO reproduction.
- Abstract(参考訳): マルチホップQAにおけるステップレベルのエビデンスギャップを検出するハイブリッドNLI-LLM決定木である \textbf{StepGap} は,3種類のラベルの1つを出力する: \textsc{Contradicted Claim} (CC), \textsc{Irrelevant Evidence} (IE), \textsc{Missing Bridge} (MB)。
82のマルチホップ質問 (181 の注釈付きステップ、$κ{=}0.704$) では、StepGap は LLM のみのベースライン (70.1) のブートストラップ信頼区間内で sF1$=$72.0 に達するが、より分解可能な構造を持つ: 全ての StepGap ステージ \emph{hurts} F1 は削除され、4つの LLM のみの削除のうち 3 つは \emph{improve} F1 である。
質問レベルF1は、各ステップにフラグを付けるチェッカーによって機械的に膨らませられ、ステップレベルF1が必要とされる診断となる。
タイプされたGRPOプロセスの報酬として使用され、StepGapはQwen2.5-7B-Instruct Exact Matchを32.1{\pm}0.3$から35.4{\pm}0.9$に改善し、マッチしたSearch-R1 GRPOよりも5.6ドルのAvg EMゲインを示した。
関連論文リスト
- SkiP: When to Skip and When to Refine for Efficient Robot Manipulation [50.03201984643502]
textbfSkip Policy (SkiP)は、スキップセグメントを動的に跳躍し、キーセグメントのアクションを集中的に洗練する。
emphMotion Spectrum Keying (MSK) は、動作信号から局所的な動きの複雑さを検出する高速でタスクに依存しない手順である。
実験によると、SkiPは実行ステップを15ドルから40%ほど削減し、さまざまなポリシーバックボーン間での成功率のマッチングや改善を実現している。
論文 参考訳(メタデータ) (2026-05-15T02:16:34Z) - Mining Subscenario Refactoring Opportunities in Behaviour-Driven Software Test Suites: ML Classifiers and LLM-Judge Baselines [1.9537983097153042]
振る舞い駆動開発(BDD)ソフトウェアテストスイートは、重複したステップサブシーケンスを蓄積します。
3つのパブリッシュパターンが利用可能である(ファイルの背景、再利用可能な再利用可能なシナリオ呼び出し、組織間の共有高レベルステップ)。
繰り返し続くサブシーケンスが抽出に値するか、どのメカニズムが適用されるかを自動化する前の作業はありません。
論文 参考訳(メタデータ) (2026-05-14T08:38:04Z) - AAC: Admissible-by-Architecture Differentiable Landmark Compression for ALT [1.2891210250935148]
AAC は ALT (A*, Landmarks, Triangle) のショートパスのための差別化可能なランドマーク選択モジュールである。
これは古典的な探索における圧縮時適応の伝統の最初の微分可能な例である。
論文 参考訳(メタデータ) (2026-04-22T16:31:21Z) - Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark [1.9537983097153042]
振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
論文 参考訳(メタデータ) (2026-04-22T11:44:05Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering [57.89576196160413]
大規模言語モデル (LLM) はマルチホップ質問応答 (MHQA) において脆弱のままである。
textbfPlanned Active Retrieval and Reasoning RAG (PAR$2-RAG)を提案する。
論文 参考訳(メタデータ) (2026-03-30T23:52:54Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Few-shot Reranking for Multi-hop QA via Language Model Prompting [56.454088569241534]
オープンドメイン質問を用いたマルチホップQAにおける数点のリランクについて検討した。
本稿では,マルチホップパスの再ランク付けを促す大規模言語モデルに依存するPromptRankを提案する。
PromptRankは、HotpotQA上で128のトレーニング例で強力な検索性能を得る。
論文 参考訳(メタデータ) (2022-05-25T10:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。