論文の概要: Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?
- arxiv url: http://arxiv.org/abs/2410.15512v2
- Date: Wed, 12 Feb 2025 02:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:18.055453
- Title: Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?
- Title(参考訳): 逆質問回答: LLMは答えられないほど難しい(あるいは悪い)質問を書けるか?
- Authors: Nishant Balepur, Feng Gu, Abhilasha Ravichander, Shi Feng, Jordan Boyd-Graber, Rachel Rudinger,
- Abstract要約: 逆質問応答(RQA): 入力された回答に対して、その回答で質問を行う。
RQAエラーにつながる質問や回答の型を見つけることで、LLM推論の改善を提案する。
- 参考スコア(独自算出の注目度): 24.614521528699093
- License:
- Abstract: Question answering (QA), giving correct answers to questions, is a popular task, but we test reverse question answering (RQA): for an input answer, give a question with that answer. Past work tests QA and RQA separately, but we test them jointly, comparing their difficulty, aiding benchmark design, and checking reasoning consistency. We run 16 LLMs on QA and RQA with trivia questions/answers, revealing: 1) Versus QA, LLMs are much less accurate in RQA for numerical answers, but slightly more accurate in RQA for textual answers; 2) LLMs often answer their own invalid questions from RQA accurately in QA, so RQA errors are not from knowledge gaps alone; 3) RQA errors correlate with question difficulty and inversely correlate with answer frequencies in the Dolma corpus; and 4) LLMs struggle to provide valid multi-hop questions. By finding question and answer types that lead to RQA errors, we suggest improvements for LLM reasoning.
- Abstract(参考訳): 質問応答(QA)は,質問に対して正しい回答を与えるのが一般的だが,質問応答(RQA)をテストする。
過去のワークテストでは、個別にQAとRQAをテストしたが、それらを共同でテストし、それらの難しさを比較し、ベンチマーク設計を支援し、推論整合性をチェックする。
16のLLMをQAとRQAで実行しています。
1) 対数QA, LLMはRQAでは数値解でははるかに精度が低いが, テキスト解ではRQAではわずかに正確である。
2 LLMは、QAにおいて、RQAから不正な質問を正確に答えることが多いので、RQAの誤りは知識ギャップからではない。
3)RQAエラーは質問困難と相関し,Dolmaコーパスの応答周波数と逆相関する。
4) LLMは、有効なマルチホップ質問の提供に苦慮している。
RQAエラーにつながる質問や回答の型を見つけることで、LLM推論の改善を提案する。
関連論文リスト
- Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。
1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
論文 参考訳(メタデータ) (2025-02-19T22:11:52Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Won't Get Fooled Again: Answering Questions with False Premises [79.8761549830075]
プレトレーニング言語モデル(PLM)は、様々な分野で前例のない可能性を示している。
PLMは「太陽は何人の目を持っているのか?」といったトリッキーな質問によって容易に騙される傾向がある。
PLMはすでにそのような疑問に答えるために必要な知識を持っている。
論文 参考訳(メタデータ) (2023-07-05T16:09:21Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Can Question Rewriting Help Conversational Question Answering? [13.484873786389471]
質問書き直し (QR) は会話型質問応答 (CQA) のサブタスクである。
本稿では,QRとCQAタスクを統合した強化学習手法について検討する。
しかし、RL法はエンドツーエンドのベースラインと同等であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T08:16:03Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。