論文の概要: Teaching language models to support answers with verified quotes
- arxiv url: http://arxiv.org/abs/2203.11147v1
- Date: Mon, 21 Mar 2022 17:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:09:32.319868
- Title: Teaching language models to support answers with verified quotes
- Title(参考訳): 検証された引用で回答を支援する言語モデルを教える
- Authors: Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis
Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham,
Geoffrey Irving, Nat McAleese
- Abstract要約: オープンブック”QAモデルをトレーニングし、その一方で、その主張に関する具体的な証拠を引用しています。
2800億のパラメータモデルであるGopherCiteは、高品質なサポートエビデンスで回答を生成し、不確実な場合には回答を控えることができます。
- 参考スコア(独自算出の注目度): 12.296242080730831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large language models often answer factual questions correctly. But
users can't trust any given claim a model makes without fact-checking, because
language models can hallucinate convincing nonsense. In this work we use
reinforcement learning from human preferences (RLHP) to train "open-book" QA
models that generate answers whilst also citing specific evidence for their
claims, which aids in the appraisal of correctness. Supporting evidence is
drawn from multiple documents found via a search engine, or from a single
user-provided document. Our 280 billion parameter model, GopherCite, is able to
produce answers with high quality supporting evidence and abstain from
answering when unsure. We measure the performance of GopherCite by conducting
human evaluation of answers to questions in a subset of the NaturalQuestions
and ELI5 datasets. The model's response is found to be high-quality 80\% of the
time on this Natural Questions subset, and 67\% of the time on the ELI5 subset.
Abstaining from the third of questions for which it is most unsure improves
performance to 90\% and 80\% respectively, approaching human baselines.
However, analysis on the adversarial TruthfulQA dataset shows why citation is
only one part of an overall strategy for safety and trustworthiness: not all
claims supported by evidence are true.
- Abstract(参考訳): 最近の大きな言語モデルは、しばしば事実の質問に正しく答える。
しかし、言語モデルは説得力のあるナンセンスを幻覚させる可能性があるため、ユーザーは事実チェックなしでモデルが主張するものを信用できない。
この研究では、人間の嗜好から強化学習(RLHP)を用いて「オープンブック」QAモデルを訓練し、また、その主張の具体的な証拠を引用し、正当性の評価を支援する。
証拠を支持するのは、検索エンジンから見つかった複数のドキュメントや、ユーザが提供する単一のドキュメントからである。
280億のパラメータモデルであるgopherciteは、高品質な裏付けのある回答を生成でき、確信が持てなければ回答を控えることができます。
本研究では,NaturalQuestions と ELI5 データセットのサブセットにおいて,質問に対する回答の人間による評価を行うことにより,GopherCite の性能を測定した。
このモデルの応答は、このNatural Questionsサブセットの80%の時間、ELI5サブセットの67%の時間である。
最も不確実な質問の3つから得られることは、パフォーマンスをそれぞれ90\%と80\%に改善し、人間のベースラインに近づきます。
しかし、敵対的なTrathfulQAデータセットの分析は、なぜ引用が安全性と信頼性に関する全体的な戦略の一部に過ぎなかったのかを示している。
関連論文リスト
- Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Model Analysis & Evaluation for Ambiguous Question Answering [0.0]
質問回答モデルは、しばしば矛盾する情報の断片を組み合わせた長文の回答を生成するために必要である。
この分野の最近の進歩は、流動的な応答を発生させる強力な能力を示しているが、いくつかの研究課題は未解決のままである。
これらの側面を徹底的に調査し、現在のアプローチの限界について貴重な洞察を提供することを目指しています。
論文 参考訳(メタデータ) (2023-05-21T15:20:20Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer
Explanation [22.20733260041759]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。
我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。
本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T17:18:17Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization [29.797379277423143]
応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-22T23:44:35Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。