論文の概要: Clarification Is Not Enough: Post-Clarification Answering Remains the Bottleneck in Multi-Turn QA
- arxiv url: http://arxiv.org/abs/2605.25204v1
- Date: Sun, 24 May 2026 18:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.96635
- Title: Clarification Is Not Enough: Post-Clarification Answering Remains the Bottleneck in Multi-Turn QA
- Title(参考訳): 明確化は十分ではない:マルチターンQAにおけるボトルネックの解答後回答
- Authors: Jinyan Su, Jennifer Healey,
- Abstract要約: 課題を2つの要素に分解することで,多ターン質問応答における選好誘導の問題について検討する。
PACIFICベンチマークを用いて、教師付き微調整が明確化ポリシーを急速に改善することを示したが、モデルが正しい動作を取る場合でも、最終的な解答精度は著しく低いままである。
- 参考スコア(独自算出の注目度): 14.475086992410276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pluralistic alignment requires systems to adapt to diverse user values, communication styles, and contextual assumptions. We believe that a foundational prerequisite for such alignment enabling accurate preference elicitation from people when their intent is under-specified or ambiguous. We study the problem of preference elicitation in multi-turn question answering by decomposing the problem into two components: a \textbf{clarification policy}, which decides whether to ask a clarifying question or answer directly, and \textbf{post-clarification answering}, which produces the correct final answer once the missing information is provided. We show, using the PACIFIC benchmark, that supervised fine-tuning rapidly improves the clarification policy, however, final answer accuracy remains substantially lower even when the model takes the correct action. This gap indicates that understanding and correctly interpreting the user's response is the critical gap in multi-turn question-answering systems.
- Abstract(参考訳): 多元的アライメントには、多様なユーザ値、コミュニケーションスタイル、コンテキスト仮定に適応するシステムが必要である。
このようなアライメントの基本的な前提条件は、意図が不明確あるいは曖昧である場合に、人からの正確な嗜好の喚起を可能にするものであると我々は信じている。
課題を2つのコンポーネントに分解することで,多ターン質問応答における選好帰着の問題について検討する。 明確化質問を問うか,直接回答するかを決定する‘textbf{clarification Policy} と,不足情報が提供されれば適切な最終回答を生成する‘textbf{post-clarification answering’ である。
PACIFICベンチマークを用いて、教師付き微調整が明確化ポリシーを急速に改善することを示したが、モデルが正しい動作を取る場合でも、最終的な解答精度は著しく低いままである。
このギャップは、ユーザの応答を理解し、正しく解釈することが、マルチターン質問応答システムにおいて重要なギャップであることを示している。
関連論文リスト
- When and What to Ask: AskBench and Rubric-Guided RLVR for LLM Clarification [8.391356566325054]
大きな言語モデル(LLM)は、重要な詳細を省略したり、誤解を招く情報を含まない場合にも、しばしば応答する。
タスク性能を犠牲にすることなく,LLMがいつ,何を求めるかを決定する能力の評価と改善について検討する。
AskBenchは、標準的なQAペアを明示的なチェックポイントを持つマルチターンインタラクションに変換する対話型ベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T02:21:01Z) - Clarify or Answer: Reinforcement Learning for Agentic VQA with Context Under-specification [10.412378789389544]
質問や回答の決定を別々にモデル化し,必要であれば何を求めるべきかをモデル化する質問・回答エージェントであるCoAを提案する。
CoAはまず、明確化が必要なのかを判断する。もしそうなら、単一の焦点を絞った質問をし、最後に答えを出すために応答を組み込む。
CoAはモジュールレベルとシステムレベルで一貫した改善を実現し、プロンプトベースのベースラインよりも平均+15.3ポイント(83%)のエンドツーエンドのVQA精度を向上させる。
論文 参考訳(メタデータ) (2026-01-23T02:12:33Z) - Learning Steerable Clarification Policies with Collaborative Self-play [67.67872810596839]
不明瞭なクエリを処理するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。
我々は,この不確実性を管理するために,自己再生を用いて評価可能な政策を訓練することを提案する。
このことが、提供されたコストに応じて予測可能な振る舞いを変更する、評価可能なポリシーにつながることを示す。
論文 参考訳(メタデータ) (2025-12-03T18:49:54Z) - Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions [45.04582353648683]
大規模言語モデル(LLM)は、しばしば非常にあいまいなユーザー要求に応答しなければならない。
既存のLLMは、そのような曖昧な要求の単一解釈を前提とすることで、異なる解釈を意図したユーザーをいらいらさせる。
今後,期待する結果をシミュレーションして選好ラベルを提案する。
これによってLLMは、将来の順番で各ユーザの解釈に合わせた応答を生成することができるのか、明確な質問を学べるようになる。
論文 参考訳(メタデータ) (2024-10-17T17:29:04Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - CLAM: Selective Clarification for Ambiguous Questions with Large
Language Models [37.37606905433334]
我々は,現在の SotA モデルでは,不正確な質問を提示しても,ユーザに対して明確化を求めないことを示す。
CLAMは,まずモデルを用いて曖昧な質問を検知し,不明瞭な質問が検出された場合,ユーザに対して明確化を求める。
本研究では,新しいあいまいな質問応答データセットを用いて,SotAに対して20.15パーセントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2022-12-15T12:47:18Z) - Double Retrieval and Ranking for Accurate Question Answering [120.69820139008138]
本研究では,トランスフォーマーを用いた解答選択モデルに導入された解答検証ステップが,問合せ解答における解答の精度を大幅に向上させることを示す。
AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。
論文 参考訳(メタデータ) (2022-01-16T06:20:07Z) - Answering Ambiguous Questions through Generative Evidence Fusion and
Round-Trip Prediction [46.38201136570501]
本稿では,複数の通路からの証拠を集約し,一つの回答や質問対の集合を適応的に予測するモデルを提案する。
我々のモデルはRefuelと呼ばれ、AmbigQAデータセット上で新しい最先端のパフォーマンスを実現し、NQ-OpenおよびTriviaQA上での競合性能を示す。
論文 参考訳(メタデータ) (2020-11-26T05:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。