論文の概要: Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?
- arxiv url: http://arxiv.org/abs/2410.15512v1
- Date: Sun, 20 Oct 2024 21:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:28.007676
- Title: Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?
- Title(参考訳): 逆質問回答: LLMは答えられないほど難しい(あるいは悪い)質問を書けるか?
- Authors: Nishant Balepur, Feng Gu, Abhilasha Ravichander, Shi Feng, Jordan Boyd-Graber, Rachel Rudinger,
- Abstract要約: 過去のワークテストでは、個別にQAとRQAをテストしたが、それらを共同でテストし、それらの難しさを比較し、ベンチマーク設計を支援し、推論整合性を評価する。
1) 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA
- 参考スコア(独自算出の注目度): 24.614521528699093
- License:
- Abstract: Question answering (QA)-producing correct answers for input questions-is popular, but we test a reverse question answering (RQA) task: given an input answer, generate a question with that answer. Past work tests QA and RQA separately, but we test them jointly, comparing their difficulty, aiding benchmark design, and assessing reasoning consistency. 16 LLMs run QA and RQA with trivia questions/answers, showing: 1) Versus QA, LLMs are much less accurate in RQA for numerical answers, but slightly more accurate in RQA for textual answers; 2) LLMs often answer their own invalid questions from RQA accurately in QA, so RQA errors are not from knowledge gaps alone; 3) RQA errors correlate with question difficulty and inversely correlate with answer frequencies in the Dolma corpus; and 4) LLMs struggle to give valid multi-hop questions. By finding question and answer types yielding RQA errors, we suggest improvements for LLM RQA reasoning.
- Abstract(参考訳): 質問応答(QA)により入力された質問に対する正しい回答が人気であるが,質問応答(RQA)タスクのテストを行う。
過去のワークテストでは、個別にQAとRQAをテストしたが、それらを共同でテストし、それらの難しさを比較し、ベンチマーク設計を支援し、推論整合性を評価する。
16のLLMがQAとRQAをトリビアの質問/回答で実行しています。
1) 対数QA, LLMはRQAでは数値解でははるかに精度が低いが, テキスト解ではRQAではわずかに正確である。
2 LLMは、QAにおいて、RQAから不正な質問を正確に答えることが多いので、RQAの誤りは知識ギャップからではない。
3)RQAエラーは質問困難と相関し,Dolmaコーパスの応答周波数と逆相関する。
4) LLMは、有効なマルチホップ質問を行うのに苦労する。
RQAの誤りを生じる質問と回答の型を見つけることにより、LLM RQA推論の改善を提案する。
関連論文リスト
- RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering [16.394601658945625]
Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。
RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。
本稿では,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づくALMupQA(Aligning LLMs)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T14:21:31Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Won't Get Fooled Again: Answering Questions with False Premises [79.8761549830075]
プレトレーニング言語モデル(PLM)は、様々な分野で前例のない可能性を示している。
PLMは「太陽は何人の目を持っているのか?」といったトリッキーな質問によって容易に騙される傾向がある。
PLMはすでにそのような疑問に答えるために必要な知識を持っている。
論文 参考訳(メタデータ) (2023-07-05T16:09:21Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Can Question Rewriting Help Conversational Question Answering? [13.484873786389471]
質問書き直し (QR) は会話型質問応答 (CQA) のサブタスクである。
本稿では,QRとCQAタスクを統合した強化学習手法について検討する。
しかし、RL法はエンドツーエンドのベースラインと同等であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T08:16:03Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。