論文の概要: No One Size Fits All: QueryBandits for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2602.20332v1
- Date: Mon, 23 Feb 2026 20:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.520052
- Title: No One Size Fits All: QueryBandits for Hallucination Mitigation
- Title(参考訳): 大きさが全てではない:幻覚の緩和のためのQueryBandits
- Authors: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso,
- Abstract要約: 我々は、最適なクエリ-リライト戦略を選択するために、オンラインを適応的に学習する、モデルに依存しないコンテキスト・バンディットフレームワークであるQueryBanditsを紹介した。
すべてのクエリに最適な書き直しポリシーは存在しないことを示す。
また、ある静的ポリシーはNo-Rewriteよりも累積的後悔を招き、非フレキシブルなクエリ書き換えポリシーは幻覚を悪化させる可能性があることを示す。
- 参考スコア(独自算出の注目度): 27.117502300924183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)の高度な推論能力は、より頻繁な幻覚を引き起こしているが、ほとんどの緩和作業は、ポストホック検出とパラメータ編集のためのオープンソースのモデルに焦点を当てている。
クローズドソースモデルにおける幻覚に焦点を当てた研究の難しさは、機関展開におけるモデルの大部分を構成するため、特に関係している。
本稿では,モデルに依存しないコンテキストブライト・ブライト・フレームワークであるQueryBanditsを紹介し,実験的検証と校正された報酬関数を活用することで,最適クエリ・リライト・ストラテジーを選択するためにオンラインを適応的に学習する。
16のQAシナリオで、トップのQueryBandit(Thompson Sampling)は、No-Rewriteベースラインに対して87.5%の勝利率を獲得し、0ショットの静的ポリシー(例:Paraphrase、Expand)をそれぞれ42.6%、60.3%上回った。
さらに、すべての文脈的帯域幅は、全てのデータセットでバニラ帯域幅よりも優れており、より高い特徴分散は、腕の選択のばらつきを大きくする。
これは、すべてのクエリに最適な単一の書き直しポリシーがないという私たちの発見を裏付けるものです。
また、ある静的ポリシーはNo-Rewriteよりも累積的後悔を招き、非フレキシブルなクエリ書き換えポリシーは幻覚を悪化させる可能性があることを示す。
したがって、QueryBanditsでセマンティック機能に関するオンラインポリシーを学ぶことは、モデル動作をフォワードパス機構を通じて純粋にシフトし、クローズドソースモデルでの使用を可能にし、再トレーニングや勾配ベースの適応の必要性を回避できる。
関連論文リスト
- Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting [27.117502300924183]
報酬モデルを最大化するために書き直し戦略を設計するフレームワークであるQueryBanditsを紹介します。
我々は,クエリ書き換えの形式を取り入れた介入を通じて幻覚を緩和するためのQueryBanditsの有効性を実証的に裏付ける。
論文 参考訳(メタデータ) (2025-08-22T01:41:49Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。