論文の概要: Pay-Per-Search Models are Abstention Models
- arxiv url: http://arxiv.org/abs/2510.01152v1
- Date: Wed, 01 Oct 2025 17:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.695778
- Title: Pay-Per-Search Models are Abstention Models
- Title(参考訳): ペイパーサーチモデルは無視モデルである
- Authors: Mustafa Omer Gul, Claire Cardie, Tanya Goyal,
- Abstract要約: 我々は, LLM から容易に吸収を抽出する学習フレームワーク MASH (Modeling Abstention via Selective Help-seeking) を紹介する。
MASHは、このアイデアを強化学習を用いて運用する。
以上の結果から,MASHはより効率的な探索手法の選択的ヘルプ検索性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 22.806007127212947
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.
- Abstract(参考訳): LLMはパラメトリックな知識境界を確実に認識することができず、しばしば境界外の質問に対する答えを幻覚させる。
対照的に、人間は自身の限界を認識し、そのような質問に対する外部の助けを求めるか、断念する。
本稿では, LLM から容易に吸収を抽出する学習フレームワーク MASH (Modeling Abstention via Selective Help-seeking) を紹介する。
我々のキーとなる考え方は、LLMによる外部ヘルプ検索、すなわち検索ツールの使用は、外部ヘルプ(検索)が適切なペナルティ化され、同時に回答精度を報いる場合、中断のためのプロキシとして機能する、ということです。
MASHは、このアイデアを強化学習を用いて運用する。
3つの知識集約型QAデータセットで実験を行う。
以上の結果から,MASHはより効率的な探索手法の選択的ヘルプ検索性能を大幅に向上し,マルチホップデータセットでは解答精度を7.6%向上することがわかった。
さらに、MASHは、解答不可能な質問を区別し、解答可能な質問に対する応答を選択的に生成できる、厳密なオフ・ザ・シェルフの棄権を示し、特別な棄権アプローチに類似した振る舞いを示す。
我々は、事前の禁忌法とは対照的に、MASHはトレーニングデータを構築するために、事前の知識境界を必要としないことを強調する。
代わりに、MASHの棄権は補助的な選択的ヘルプ探索タスクのための訓練の副産物である。
全体として、MASHトレーニングは、探索ツールの使用とパラメトリック知識を効果的に整合させ、棄権決定に有効に活用できることを示す。
関連論文リスト
- Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning [37.20632079882874]
DACE(Difficulty Aware Certainty guided Exploration)を紹介する。
政策の成功率に基づいて、探索的エクスプロイトのトレードオフをバランスさせる。
挑戦的な数学的推論ベンチマーク(AIME, MATH)の実験は、DACEが強いベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-29T08:57:54Z) - AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions [32.871820908561936]
AbstentionBenchは、20の多様なデータセットにわたる禁忌を評価するためのベンチマークである。
微調整による推論は、数学や科学の分野でも無視される。
論文 参考訳(メタデータ) (2025-06-10T17:57:30Z) - KBM: Delineating Knowledge Boundary for Adaptive Retrieval in Large Language Models [69.99274367773997]
大規模言語モデル(LLM)は知識を動的に変化させ、未知の静的情報を扱うのにしばしば苦労する。
Retrieval-Augmented Generation (RAG) はこれらの課題に対処するために使われ、LLMの性能向上に大きな影響を与えている。
本稿では,ある質問の既知/未知を表現し,RAGを起動する必要があるかどうかを判断するための知識境界モデル(KBM)を提案する。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - EfficientEQA: An Efficient Approach to Open-Vocabulary Embodied Question Answering [21.114403949257934]
大規模視覚言語モデル(VLM)は、EQA(Embodied Question Answering)を約束している。
既存のアプローチでは、アクティブな探索をせずに静的なビデオ質問応答として扱うか、あるいはクローズドな選択に対する回答を制限するかのどちらかである。
EfficientEQAは,効率的な探索と自由形式の回答生成を両立させる新しいフレームワークである。
実験結果から,EQAの解答精度は15%以上向上し,最先端手法よりも20%以上の探索ステップが要求されることがわかった。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models [4.377568983107492]
Abstention Ability (AA) は、Large Language Model (LLM) の信頼性の重要な側面である。
これまでの研究では、AAを改善する試みがあったが、標準化された評価方法が欠如していた。
本稿では,ブラックボックス評価手法と新しいデータセットAbstain-QAを導入することで,このギャップを埋める。
論文 参考訳(メタデータ) (2024-07-23T06:56:54Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Rethinking Label Smoothing on Multi-hop Question Answering [87.68071401870283]
MHQA (Multi-Hop Question Answering) は質問応答において重要な分野である。
本研究では,マルチホップ推論の性能を制限する主要な要因を解析する。
学習プロセスに不確実性を組み込んだ新しいラベル平滑化手法F1 Smoothingを提案する。
論文 参考訳(メタデータ) (2022-12-19T14:48:08Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。