論文の概要: Characterizing LLM Abstention Behavior in Science QA with Context Perturbations
- arxiv url: http://arxiv.org/abs/2404.12452v1
- Date: Thu, 18 Apr 2024 18:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 17:04:06.767650
- Title: Characterizing LLM Abstention Behavior in Science QA with Context Perturbations
- Title(参考訳): 文脈摂動を用いた理科QAにおけるLLMの留意行動の特徴
- Authors: Bingbing Wen, Bill Howe, Lucy Lu Wang,
- Abstract要約: 本研究では,LLMが不十分あるいは誤った文脈で科学的な疑問に答えることを禁じる能力について検討する。
性能はモデルによって大きく異なり、提供されたコンテキストの種類や質問タイプによっても大きく異なることを示す。
以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 13.897212714309548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The correct model response in the face of uncertainty is to abstain from answering a question so as not to mislead the user. In this work, we study the ability of LLMs to abstain from answering context-dependent science questions when provided insufficient or incorrect context. We probe model sensitivity in several settings: removing gold context, replacing gold context with irrelevant context, and providing additional context beyond what is given. In experiments on four QA datasets with four LLMs, we show that performance varies greatly across models, across the type of context provided, and also by question type; in particular, many LLMs seem unable to abstain from answering boolean questions using standard QA prompts. Our analysis also highlights the unexpected impact of abstention performance on QA task accuracy. Counter-intuitively, in some settings, replacing gold context with irrelevant context or adding irrelevant context to gold context can improve abstention performance in a way that results in improvements in task performance. Our results imply that changes are needed in QA dataset design and evaluation to more effectively assess the correctness and downstream impacts of model abstention.
- Abstract(参考訳): 不確実性に直面した正しいモデル応答は、ユーザを誤解させることなく、質問に答えることを禁じることである。
本研究では,LLMが文脈に依存した科学的な質問に,不十分あるいは誤った文脈で答えることを防ぐ能力について検討する。
金のコンテキストを削除し、金のコンテキストを無関係のコンテキストに置き換え、与えられたコンテキストを超える追加のコンテキストを提供する。
4つのLLMを持つ4つのQAデータセットの実験では、提供されたコンテキストの種類や質問タイプによって、モデル間で性能が大きく異なることが示され、特に多くのLCMでは、標準的なQAプロンプトを使用してブール問題の解答を抑えられないように思われる。
また,QAタスクの精度に対する抑止性能の予期せぬ影響についても分析を行った。
いくつかの設定では、金のコンテキストを無関係なコンテキストに置き換えたり、金のコンテキストに無関係なコンテキストを追加することで、タスクのパフォーマンスが向上する。
以上の結果から,QAデータセットの設計と評価において,モデル棄却の正しさと下流への影響をより効果的に評価するために,変更が必要であることが示唆された。
関連論文リスト
- Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
LLMはコンテキストが十分である場合,クエリの応答に優れるが,コンテキストが不適切でない場合,しばしば不適切な回答を出力する。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - FusionMind -- Improving question and answering with external context
fusion [0.0]
事前学習言語モデル(LM)と知識グラフ(KG)を用いて,文脈知識が質問応答目標(QA)に与える影響を検討した。
知識事実のコンテキストを取り入れることで、パフォーマンスが大幅に向上することがわかった。
このことは、文脈的知識事実の統合が、質問応答のパフォーマンスを高める上でより影響があることを示唆している。
論文 参考訳(メタデータ) (2023-12-31T03:51:31Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。