Fugu-MT 論文翻訳(概要): Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?

論文の概要: Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?

arxiv url: http://arxiv.org/abs/2410.15512v2
Date: Wed, 12 Feb 2025 02:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 15:57:39.237306
Title: Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer?
Title（参考訳）: 逆質問回答: LLMは答えられないほど難しい(あるいは悪い)質問を書けるか?
Authors: Nishant Balepur, Feng Gu, Abhilasha Ravichander, Shi Feng, Jordan Boyd-Graber, Rachel Rudinger,
Abstract要約: 逆質問応答(RQA): 入力された回答に対して、その回答で質問を行う。 RQAエラーにつながる質問や回答の型を見つけることで、LLM推論の改善を提案する。
参考スコア（独自算出の注目度）: 24.614521528699093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Question answering (QA), giving correct answers to questions, is a popular task, but we test reverse question answering (RQA): for an input answer, give a question with that answer. Past work tests QA and RQA separately, but we test them jointly, comparing their difficulty, aiding benchmark design, and checking reasoning consistency. We run 16 LLMs on QA and RQA with trivia questions/answers, revealing: 1) Versus QA, LLMs are much less accurate in RQA for numerical answers, but slightly more accurate in RQA for textual answers; 2) LLMs often answer their own invalid questions from RQA accurately in QA, so RQA errors are not from knowledge gaps alone; 3) RQA errors correlate with question difficulty and inversely correlate with answer frequencies in the Dolma corpus; and 4) LLMs struggle to provide valid multi-hop questions. By finding question and answer types that lead to RQA errors, we suggest improvements for LLM reasoning.
Abstract（参考訳）: 質問応答(QA)は,質問に対して正しい回答を与えるのが一般的だが,質問応答(RQA)をテストする。過去のワークテストでは、個別にQAとRQAをテストしたが、それらを共同でテストし、それらの難しさを比較し、ベンチマーク設計を支援し、推論整合性をチェックする。 16のLLMをQAとRQAで実行しています。 1) 対数QA, LLMはRQAでは数値解でははるかに精度が低いが, テキスト解ではRQAではわずかに正確である。 2 LLMは、QAにおいて、RQAから不正な質問を正確に答えることが多いので、RQAの誤りは知識ギャップからではない。 3)RQAエラーは質問困難と相関し,Dolmaコーパスの応答周波数と逆相関する。 4) LLMは、有効なマルチホップ質問の提供に苦慮している。 RQAエラーにつながる質問や回答の型を見つけることで、LLM推論の改善を提案する。

関連論文リスト

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。 1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
論文参考訳（メタデータ） (2025-02-19T22:11:52Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering [16.394601658945625]
Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。 RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。本稿では,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づくALMupQA(Aligning LLMs)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-27T14:21:31Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文参考訳（メタデータ） (2024-02-17T01:56:19Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
Answering Ambiguous Questions with a Database of Questions, Answers, and Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文参考訳（メタデータ） (2023-08-16T20:23:16Z)
Won't Get Fooled Again: Answering Questions with False Premises [79.8761549830075]
プレトレーニング言語モデル(PLM)は、様々な分野で前例のない可能性を示している。 PLMは「太陽は何人の目を持っているのか?」といったトリッキーな質問によって容易に騙される傾向がある。 PLMはすでにそのような疑問に答えるために必要な知識を持っている。
論文参考訳（メタデータ） (2023-07-05T16:09:21Z)
Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-23T16:35:16Z)
RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文参考訳（メタデータ） (2022-10-25T21:39:36Z)
Can Question Rewriting Help Conversational Question Answering? [13.484873786389471]
質問書き直し (QR) は会話型質問応答 (CQA) のサブタスクである。本稿では,QRとCQAタスクを統合した強化学習手法について検討する。しかし、RL法はエンドツーエンドのベースラインと同等であることがわかった。
論文参考訳（メタデータ） (2022-04-13T08:16:03Z)
GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。このデータセットには500万の質問と300万の回答が含まれている。
論文参考訳（メタデータ） (2021-04-18T05:40:39Z)
Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文参考訳（メタデータ） (2020-02-22T19:40:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。