Fugu-MT 論文翻訳(概要): When and What to Ask: AskBench and Rubric-Guided RLVR for LLM Clarification

論文の概要: When and What to Ask: AskBench and Rubric-Guided RLVR for LLM Clarification

arxiv url: http://arxiv.org/abs/2602.11199v1
Date: Wed, 04 Feb 2026 02:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.432007
Title: When and What to Ask: AskBench and Rubric-Guided RLVR for LLM Clarification
Title（参考訳）: AskBench と Rubric-Guided RLVR による LLM の解明
Authors: Jiale Zhao, Ke Fang, Lu Cheng,
Abstract要約: 大きな言語モデル(LLM)は、重要な詳細を省略したり、誤解を招く情報を含まない場合にも、しばしば応答する。タスク性能を犠牲にすることなく,LLMがいつ,何を求めるかを決定する能力の評価と改善について検討する。 AskBenchは、標準的なQAペアを明示的なチェックポイントを持つマルチターンインタラクションに変換する対話型ベンチマークである。
参考スコア（独自算出の注目度）: 8.391356566325054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) often respond even when prompts omit critical details or include misleading information, leading to hallucinations or reinforced misconceptions. We study how to evaluate and improve LLMs' ability to decide when and what to ask for clarification without sacrificing task performance. We introduce AskBench, an interactive benchmark that converts standard QA pairs into multi-turn interactions with explicit checkpoints. A unified judge loop evaluates final answers and simulates user responses as needed. AskBench covers two settings: AskMind, with intent-deficient queries requiring clarification, and AskOverconfidence, with queries containing false premises that must be identified and corrected. We further propose rubric-guided reinforcement learning with verifier-based rewards (RLVR), which uses structured rubrics to encourage targeted clarification. Experiments show consistent improvements in accuracy, rubric adherence, and interaction efficiency, with strong generalization to unseen domains.
Abstract（参考訳）: 大きな言語モデル(LLM)は、重要な詳細を省略したり、誤解を招く情報を含んだりしても、しばしば反応し、幻覚や強化された誤解につながる。タスク性能を犠牲にすることなく,LLMがいつ,何を求めるかを決定する能力の評価と改善について検討する。 AskBenchは、標準的なQAペアを明示的なチェックポイントを持つマルチターンインタラクションに変換する対話型ベンチマークである。統一判断ループは最終回答を評価し、必要に応じてユーザ応答をシミュレートする。 AskBenchは2つの設定をカバーしている。AskMindは、明確化を必要とする意図不足のクエリを持ち、AskOverconfidenceは、識別と修正が必要な偽の前提を含むクエリである。さらに,構造化ルーリックを用いて目的の明確化を促進する検証器ベース報酬(RLVR)を用いたルーリック誘導強化学習を提案する。実験では、未確認領域への強い一般化により、精度、ルーリック付着性、相互作用効率が一貫した改善を示す。

関連論文リスト

Inferential Question Answering [67.54465021408724]
新しいタスクであるInferential QAを導入します。これは、答えをサポートするパスから答えを推測するためにモデルに挑戦するものです。そこで本研究では,7,401問と2.4M節からなるQUITデータセットを構築した。我々は,従来のQAタスクに有効な手法が推論QAに苦しむことを示し,レトリバーは性能が低下し,リランカーは利得が制限され,微調整は不整合の改善をもたらすことを示した。
論文参考訳（メタデータ） (2026-02-01T14:02:43Z)
Pardon? Evaluating Conversational Repair in Large Audio-Language Models [15.682992943165994]
本稿では,解答可能な音声入力と解答不能な音声入力を区別する補修対応評価設定を提案する。本研究では, 応答性のある条件下でのタスク能力と予測不能な条件下での修復動作を協調的に評価する非補償指標であるEvaluability Awareness and repair (EAR) スコアを提案する。
論文参考訳（メタデータ） (2026-01-19T11:36:27Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation [5.259846811078731]
我々は、明確化のためのあいまいさの概念に注目し、明確化プロセスにおいてあいまいさをモデル化し統合することを模索する。我々はこの新しいプロンプトスキームをAmbiguity Type-Chain of Thought (AT-CoT)と名付けた。
論文参考訳（メタデータ） (2025-04-16T14:21:02Z)
CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-13T17:34:35Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines? [0.0]
ファクトチェックを必要とするテキストセグメントを識別するために、ゼロショットと少数ショットのLCMプロンプトを使用する。各種領域の5つのCD/CWデータセットに対して,LLMの予測精度と校正精度を評価した。提案手法により, 最適急進的冗長性はドメイン依存であり, 文脈の追加は性能を向上しないことがわかった。
論文参考訳（メタデータ） (2024-04-18T13:31:05Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Retrospective Reader for Machine Reading Comprehension [90.6069071495214]
機械読み取り理解(英: Machine reading comprehension、MRC)とは、機械が与えられた文節に基づいて質問に対する正しい答えを決定することを要求するAIチャレンジである。不可解な質問が MRC タスクに関与している場合、検証モジュールと呼ばれる本質的な検証モジュールがエンコーダに加えて特に必要となる。本稿では, MRC タスクに対して, 解答不能な質問に対して, より優れた検証器設計を提案する。
論文参考訳（メタデータ） (2020-01-27T11:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。