論文の概要: Characterizing LLM Abstention Behavior in Science QA with Context Perturbations
- arxiv url: http://arxiv.org/abs/2404.12452v1
- Date: Thu, 18 Apr 2024 18:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 17:04:06.767650
- Title: Characterizing LLM Abstention Behavior in Science QA with Context Perturbations
- Title(参考訳): 文脈摂動を用いた理科QAにおけるLLMの留意行動の特徴
- Authors: Bingbing Wen, Bill Howe, Lucy Lu Wang,
- Abstract要約: 本研究では,LLMが不十分あるいは誤った文脈で科学的な疑問に答えることを禁じる能力について検討する。
性能はモデルによって大きく異なり、提供されたコンテキストの種類や質問タイプによっても大きく異なることを示す。
以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 13.897212714309548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The correct model response in the face of uncertainty is to abstain from answering a question so as not to mislead the user. In this work, we study the ability of LLMs to abstain from answering context-dependent science questions when provided insufficient or incorrect context. We probe model sensitivity in several settings: removing gold context, replacing gold context with irrelevant context, and providing additional context beyond what is given. In experiments on four QA datasets with four LLMs, we show that performance varies greatly across models, across the type of context provided, and also by question type; in particular, many LLMs seem unable to abstain from answering boolean questions using standard QA prompts. Our analysis also highlights the unexpected impact of abstention performance on QA task accuracy. Counter-intuitively, in some settings, replacing gold context with irrelevant context or adding irrelevant context to gold context can improve abstention performance in a way that results in improvements in task performance. Our results imply that changes are needed in QA dataset design and evaluation to more effectively assess the correctness and downstream impacts of model abstention.
- Abstract(参考訳): 不確実性に直面した正しいモデル応答は、ユーザを誤解させることなく、質問に答えることを禁じることである。
本研究では,LLMが文脈に依存した科学的な質問に,不十分あるいは誤った文脈で答えることを防ぐ能力について検討する。
金のコンテキストを削除し、金のコンテキストを無関係のコンテキストに置き換え、与えられたコンテキストを超える追加のコンテキストを提供する。
4つのLLMを持つ4つのQAデータセットの実験では、提供されたコンテキストの種類や質問タイプによって、モデル間で性能が大きく異なることが示され、特に多くのLCMでは、標準的なQAプロンプトを使用してブール問題の解答を抑えられないように思われる。
また,QAタスクの精度に対する抑止性能の予期せぬ影響についても分析を行った。
いくつかの設定では、金のコンテキストを無関係なコンテキストに置き換えたり、金のコンテキストに無関係なコンテキストを追加することで、タスクのパフォーマンスが向上する。
以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。
関連論文リスト
- FusionMind -- Improving question and answering with external context
fusion [0.0]
事前学習言語モデル(LM)と知識グラフ(KG)を用いて,文脈知識が質問応答目標(QA)に与える影響を検討した。
知識事実のコンテキストを取り入れることで、パフォーマンスが大幅に向上することがわかった。
このことは、文脈的知識事実の統合が、質問応答のパフォーマンスを高める上でより影響があることを示唆している。
論文 参考訳(メタデータ) (2023-12-31T03:51:31Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking [21.480602733510256]
質問を明確にするための自然言語実践的質問(PACQ)の定義とフレームワークを提案する。
また、自然言語データセットを自己教師付きPACQデータセットに変換するためのファクトレベルマスキング(FLM)も提案する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Exploring Contrast Consistency of Open-Domain Question Answering Systems
on Minimally Edited Questions [17.964144370494157]
DPRトレーニングを改善するために,データ拡張によるクエリ側のコントラスト損失を導入する。
コントラストセットの実験では、標準テストセットの精度を犠牲にすることなく、DPRのコントラスト一貫性が向上することを示した。
論文 参考訳(メタデータ) (2023-05-23T18:07:04Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。