論文の概要: Won't Get Fooled Again: Answering Questions with False Premises
- arxiv url: http://arxiv.org/abs/2307.02394v1
- Date: Wed, 5 Jul 2023 16:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:06:51.921993
- Title: Won't Get Fooled Again: Answering Questions with False Premises
- Title(参考訳): 二度と騙されない - 虚偽の前提で質問に答える
- Authors: Shengding Hu, Yifan Luo, Huadong Wang, Xingyi Cheng, Zhiyuan Liu,
Maosong Sun
- Abstract要約: プレトレーニング言語モデル(PLM)は、様々な分野で前例のない可能性を示している。
PLMは「太陽は何人の目を持っているのか?」といったトリッキーな質問によって容易に騙される傾向がある。
PLMはすでにそのような疑問に答えるために必要な知識を持っている。
- 参考スコア(独自算出の注目度): 79.8761549830075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) have shown unprecedented potential in
various fields, especially as the backbones for question-answering (QA)
systems. However, they tend to be easily deceived by tricky questions such as
"How many eyes does the sun have?". Such frailties of PLMs often allude to the
lack of knowledge within them. In this paper, we find that the PLMs already
possess the knowledge required to rebut such questions, and the key is how to
activate the knowledge. To systematize this observation, we investigate the
PLMs' responses to one kind of tricky questions, i.e., the false premises
questions (FPQs). We annotate a FalseQA dataset containing 2365 human-written
FPQs, with the corresponding explanations for the false premises and the
revised true premise questions. Using FalseQA, we discover that PLMs are
capable of discriminating FPQs by fine-tuning on moderate numbers (e.g., 256)
of examples. PLMs also generate reasonable explanations for the false premise,
which serve as rebuttals. Further replaying a few general questions during
training allows PLMs to excel on FPQs and general questions simultaneously. Our
work suggests that once the rebuttal ability is stimulated, knowledge inside
the PLMs can be effectively utilized to handle FPQs, which incentivizes the
research on PLM-based QA systems.
- Abstract(参考訳): 事前学習言語モデル(PLM)は、特にQAシステムのバックボーンとして、様々な分野で前例のない可能性を示している。
しかし、彼らは「太陽の目は何個あるのか?」といった厄介な質問に容易に騙される傾向がある。
このようなPLMの欠陥は、しばしばその内部の知識の欠如を暗示する。
本稿では,これらの疑問に答えるために必要な知識をPLMがすでに持っていること,そしてその知識を活性化する方法が鍵であることを示す。
この観察を体系化するために、我々はPLMの1つの難解な質問に対する応答、すなわち偽前提質問(FPQ)について調査する。
2365人のFPQを含むFalseQAデータセットに、偽の前提条件と修正された真の前提条件に関する説明を注釈付けする。
FalseQAを用いて、PLMは中等数(例えば256)の例を微調整することでFPQを識別できることがわかった。
PLMはまた、反論として機能する偽の前提について合理的な説明を生成する。
トレーニング中にいくつかの一般的な質問をリプレイすることで、PLMはFPQと一般的な質問を同時に実行することができる。
本研究は,PLMを用いたQAシステムの研究にインセンティブを与えるFPQを扱うために,PLM内の知識を効果的に活用できることを示唆する。
関連論文リスト
- Reverse Question Answering: Can an LLM Write a Question so Hard (or Bad) that it Can't Answer? [24.614521528699093]
過去のワークテストでは、個別にQAとRQAをテストしたが、それらを共同でテストし、それらの難しさを比較し、ベンチマーク設計を支援し、推論整合性を評価する。
1) 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA, 対数QA
論文 参考訳(メタデータ) (2024-10-20T21:17:49Z) - Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
RAITは、初期LCMの応答の正しさに基づいてトレーニングサンプルを変更する。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions [19.246385485678104]
大規模言語モデル(LLM)は、誤った前提問題(FPQ)によって誤解されるおそれがある。
知識グラフ(KG)に基づいたFPQを作成するための,自動化されたスケーラブルなパイプラインを導入する。
本稿では,知識グラフに基づくFalse Premise Questions (KG-FPQ) のベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-07-08T12:31:03Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - TSGP: Two-Stage Generative Prompting for Unsupervised Commonsense
Question Answering [4.965306353273393]
教師なしのコモンセンス質問応答には、ラベル付きタスクデータに頼らずに効果的なコモンセンス知識をマイニングする必要がある。
2段階のプロンプトに基づく教師なしコモンセンス質問応答フレームワーク(TSGP)を提案する。
CommonsenseQA、OpenBookQA、SocialIQAの3つの異なる共通センス推論タスクに関する実験結果と分析により、TSGPは教師なし設定における言語モデルの推論能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2022-11-24T10:19:24Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。