論文の概要: Mastering the ABCDs of Complex Questions: Answer-Based Claim
Decomposition for Fine-grained Self-Evaluation
- arxiv url: http://arxiv.org/abs/2305.14750v1
- Date: Wed, 24 May 2023 05:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:19:26.795830
- Title: Mastering the ABCDs of Complex Questions: Answer-Based Claim
Decomposition for Fine-grained Self-Evaluation
- Title(参考訳): 複雑な質問のABCDをマスターする: きめ細かい自己評価のための回答に基づく主張分解
- Authors: Nishant Balepur, Jie Huang, Samraj Moorjani, Hari Sundaram, Kevin
Chen-Chuan Chang
- Abstract要約: 本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。
ABCDクレームを分解し, きめ細かい自己評価を行う。
GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
- 参考スコア(独自算出の注目度): 9.776667356119352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When answering complex questions, large language models (LLMs) may produce
answers that do not satisfy all criteria of the question. While existing
self-evaluation techniques aim to detect if such answers are correct, these
techniques are unable to determine which criteria of the question are satisfied
by the generated answers. To address this issue, we propose answer-based claim
decomposition (ABCD), a prompting strategy that decomposes questions into a
series of true/false claims that can be used to verify which criteria of the
input question an answer satisfies. Using the decomposed ABCD claims, we
perform fine-grained self-evaluation. Through preliminary experiments on three
datasets, including a newly-collected challenge dataset ObscureQA, we find that
GPT-3.5 has some ability to determine to what extent its answer satisfies the
criteria of the input question, and can give insights into the errors and
knowledge gaps of the model.
- Abstract(参考訳): 複雑な質問に答えるとき、大きな言語モデル(LLM)は、質問のすべての基準を満たさない回答を生成する。
既存の自己評価手法は、そのような回答が正しいかどうかを検知することを目的としているが、これらの手法は、生成された回答によってどの基準を満たすかを決定することができない。
この問題に対処するために,我々は,質問の答えが満足できる質問の基準を検証するために使用できる一連の真偽/偽のクレームに質問を分解するプロンプト戦略である回答ベースクレーム分解(abcd, answer-based claims decomposition)を提案する。
ABCDクレームを分解し, きめ細かい自己評価を行う。
新たに収集された課題データセットObscureQAを含む3つのデータセットに関する予備実験により、GPT-3.5は、その回答が入力された質問の基準をどの程度満足するかを判断し、モデルのエラーと知識ギャップについての洞察を与えることができることがわかった。
関連論文リスト
- Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Alexpaca: Learning Factual Clarification Question Generation Without Examples [19.663171923249283]
本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Asking Clarification Questions to Handle Ambiguity in Open-Domain QA [25.80369529145732]
本稿では,ユーザの反応がユーザの意図に最も合致する解釈を識別する上で有効であることを示す。
最初に,5,654の曖昧な質問からなるデータセットであるCAMBIGNQを提示する。
次にタスクのパイプラインを定義し、適切な評価指標を設計します。
論文 参考訳(メタデータ) (2023-05-23T08:20:01Z) - Do I have the Knowledge to Answer? Investigating Answerability of
Knowledge Base Questions [25.13991044303459]
GrailQAbilityは、未解決のKBQAデータセットである。
3つの最先端KBQAモデルを用いて実験したところ、3つのモデル全てが性能低下に悩まされていることがわかった。
このことはKBQAシステムを解答不能に堅牢にするためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-12-20T12:00:26Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - Double Retrieval and Ranking for Accurate Question Answering [120.69820139008138]
本研究では,トランスフォーマーを用いた解答選択モデルに導入された解答検証ステップが,問合せ解答における解答の精度を大幅に向上させることを示す。
AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。
論文 参考訳(メタデータ) (2022-01-16T06:20:07Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - Determining Question-Answer Plausibility in Crowdsourced Datasets Using
Multi-Task Learning [10.742152224470317]
本稿では,品質分析とデータクリーニングのための新しいタスクを提案する。
ソーシャルメディア利用者からのマシンやユーザ生成の質問とクラウドソースによる回答が与えられた場合、質問と回答が有効かどうかを判断する。
クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-11-10T04:11:44Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。