Fugu-MT 論文翻訳(概要): No One Size Fits All: QueryBandits for Hallucination Mitigation

論文の概要: No One Size Fits All: QueryBandits for Hallucination Mitigation

arxiv url: http://arxiv.org/abs/2602.20332v1
Date: Mon, 23 Feb 2026 20:28:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.520052
Title: No One Size Fits All: QueryBandits for Hallucination Mitigation
Title（参考訳）: 大きさが全てではない:幻覚の緩和のためのQueryBandits
Authors: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso,
Abstract要約: 我々は、最適なクエリ-リライト戦略を選択するために、オンラインを適応的に学習する、モデルに依存しないコンテキスト・バンディットフレームワークであるQueryBanditsを紹介した。すべてのクエリに最適な書き直しポリシーは存在しないことを示す。また、ある静的ポリシーはNo-Rewriteよりも累積的後悔を招き、非フレキシブルなクエリ書き換えポリシーは幻覚を悪化させる可能性があることを示す。
参考スコア（独自算出の注目度）: 27.117502300924183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.
Abstract（参考訳）: 大規模言語モデル(LLM)の高度な推論能力は、より頻繁な幻覚を引き起こしているが、ほとんどの緩和作業は、ポストホック検出とパラメータ編集のためのオープンソースのモデルに焦点を当てている。クローズドソースモデルにおける幻覚に焦点を当てた研究の難しさは、機関展開におけるモデルの大部分を構成するため、特に関係している。本稿では,モデルに依存しないコンテキストブライト・ブライト・フレームワークであるQueryBanditsを紹介し,実験的検証と校正された報酬関数を活用することで,最適クエリ・リライト・ストラテジーを選択するためにオンラインを適応的に学習する。 16のQAシナリオで、トップのQueryBandit(Thompson Sampling)は、No-Rewriteベースラインに対して87.5%の勝利率を獲得し、0ショットの静的ポリシー(例:Paraphrase、Expand)をそれぞれ42.6%、60.3%上回った。さらに、すべての文脈的帯域幅は、全てのデータセットでバニラ帯域幅よりも優れており、より高い特徴分散は、腕の選択のばらつきを大きくする。これは、すべてのクエリに最適な単一の書き直しポリシーがないという私たちの発見を裏付けるものです。また、ある静的ポリシーはNo-Rewriteよりも累積的後悔を招き、非フレキシブルなクエリ書き換えポリシーは幻覚を悪化させる可能性があることを示す。したがって、QueryBanditsでセマンティック機能に関するオンラインポリシーを学ぶことは、モデル動作をフォワードパス機構を通じて純粋にシフトし、クローズドソースモデルでの使用を可能にし、再トレーニングや勾配ベースの適応の必要性を回避できる。

関連論文リスト

Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文参考訳（メタデータ） (2026-01-13T10:46:06Z)
ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。 RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文参考訳（メタデータ） (2025-10-23T12:39:20Z)
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting [27.117502300924183]
報酬モデルを最大化するために書き直し戦略を設計するフレームワークであるQueryBanditsを紹介します。我々は,クエリ書き換えの形式を取り入れた介入を通じて幻覚を緩和するためのQueryBanditsの有効性を実証的に裏付ける。
論文参考訳（メタデータ） (2025-08-22T01:41:49Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文参考訳（メタデータ） (2024-07-02T07:12:51Z)
Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-16T16:09:05Z)
Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries [6.249216559519607]
元のベースクエリの複数の言い換えにより,クローズドソースの大規模言語モデルの不確かさを推定する。本手法は, ベースラインと比較して不確実性推定の校正精度が著しく向上したことを示す。
論文参考訳（メタデータ） (2024-05-22T18:28:26Z)
Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文参考訳（メタデータ） (2024-02-24T03:41:09Z)
DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文参考訳（メタデータ） (2024-01-10T14:38:46Z)
Improving Selective Visual Question Answering by Learning from Your Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文参考訳（メタデータ） (2023-06-14T21:22:01Z)
Optimal Online Generalized Linear Regression with Stochastic Noise and Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。本稿では,FTRLに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T08:25:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。