論文の概要: QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
- arxiv url: http://arxiv.org/abs/2508.16697v1
- Date: Fri, 22 Aug 2025 01:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.130852
- Title: QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
- Title(参考訳): 幻覚軽減のためのQueryBandits: 意味的特徴の爆発的再記述
- Authors: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso,
- Abstract要約: 報酬モデルを最大化するために書き直し戦略を設計するフレームワークであるQueryBanditsを紹介します。
我々は,クエリ書き換えの形式を取り入れた介入を通じて幻覚を緩和するためのQueryBanditsの有効性を実証的に裏付ける。
- 参考スコア(独自算出の注目度): 27.117502300924183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced reasoning capabilities in Large Language Models (LLMs) have caused higher hallucination prevalence; yet most mitigation work focuses on after-the-fact filtering rather than shaping the queries that trigger them. We introduce QueryBandits, a bandit framework that designs rewrite strategies to maximize a reward model, that encapsulates hallucination propensity based upon the sensitivities of 17 linguistic features of the input query-and therefore, proactively steer LLMs away from generating hallucinations. Across 13 diverse QA benchmarks and 1,050 lexically perturbed queries per dataset, our top contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a no-rewrite baseline and also outperforms zero-shot static prompting ("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we empirically substantiate the effectiveness of QueryBandits in mitigating hallucination via the intervention that takes the form of a query rewrite. Interestingly, certain static prompting strategies, which constitute a considerable number of current query rewriting literature, have a higher cumulative regret than the no-rewrite baseline, signifying that static rewrites can worsen hallucination. Moreover, we discover that the converged per-arm regression feature weight vectors substantiate that there is no single rewrite strategy optimal for all queries. In this context, guided rewriting via exploiting semantic features with QueryBandits can induce significant shifts in output behavior through forward-pass mechanisms, bypassing the need for retraining or gradient-based adaptation.
- Abstract(参考訳): LLM(Large Language Models)の高度な推論能力は幻覚の頻度を高くしている。
本稿では,報酬モデルを最大化するために書き直し戦略を設計するランディットフレームワークであるQueryBanditsを紹介し,入力クエリの17の言語的特徴の感性に基づいて幻覚をカプセル化する。
13の多様なQAベンチマークと1,050の語彙的摂動クエリに対して、トップコンテキストのQueryBandit(Thompson Sampling)は、ノーリライトベースラインよりも87.5%の勝利率を獲得し、また、ゼロショットの静的プロンプト(パラフレーズ)を42.6%、60.3%上回っている。
そこで我々は,クエリ書き換えの形式を取り入れた介入による幻覚の緩和において,QueryBanditsの有効性を実証的に検証した。
興味深いことに、現在のクエリ書き換え文学のかなりの数を構成する静的プロンプト戦略は、ノーリライトベースラインよりも累積的後悔度が高く、静的リライトが幻覚を悪化させる可能性があることを示している。
さらに、収束したアームごとの回帰特徴量ベクトルは、全てのクエリに最適な書き直し戦略が存在しないことを裏付ける。
このコンテキストでは、QueryBanditsによるセマンティック機能の利用によるガイド付き書き換えは、トレーニングや勾配に基づく適応の必要性を回避して、フォワードパス機構を通じて出力動作の大幅なシフトを引き起こすことができる。
関連論文リスト
- Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - R-Bot: An LLM-based Query Rewrite System [20.909806427953264]
本稿では,LLMに基づく問合せ書き換えシステムであるR-Botを提案する。
まず,複数ソースのリライトエビデンス作成パイプラインを設計し,クエリリライトエビデンスを生成する。
次に,構造解析と意味解析を組み合わせたハイブリッド・セマンティック検索手法を提案する。
実世界のデータセットと広く使われているベンチマークに関する包括的な実験を行い、システムの優れた性能を実証する。
論文 参考訳(メタデータ) (2024-12-02T16:13:04Z) - Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。