論文の概要: ConSens: Assessing context grounding in open-book question answering
- arxiv url: http://arxiv.org/abs/2505.00065v1
- Date: Wed, 30 Apr 2025 16:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.134936
- Title: ConSens: Assessing context grounding in open-book question answering
- Title(参考訳): ConSens: オープンブックの質問応答におけるコンテキストグラウンドの評価
- Authors: Ivan Vankov, Matyo Ivanov, Adriana Correia, Victor Botev,
- Abstract要約: 大規模言語モデル(LLM)は、オープンブック質問応答(QA)においてかなりの成功を収めた。
オープンブックのQAにおける重要な課題は、モデル応答がパラメトリックな知識ではなく、提供されたコンテキストに基づいていることを保証することです。
2つの条件下でのモデル応答の難易度を対比する新しい計量法を提案する。
結果のスコアは、与えられたコンテキストに依存するモデルの回答の範囲を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated considerable success in open-book question answering (QA), where the task requires generating answers grounded in a provided external context. A critical challenge in open-book QA is to ensure that model responses are based on the provided context rather than its parametric knowledge, which can be outdated, incomplete, or incorrect. Existing evaluation methods, primarily based on the LLM-as-a-judge approach, face significant limitations, including biases, scalability issues, and dependence on costly external systems. To address these challenges, we propose a novel metric that contrasts the perplexity of the model response under two conditions: when the context is provided and when it is not. The resulting score quantifies the extent to which the model's answer relies on the provided context. The validity of this metric is demonstrated through a series of experiments that show its effectiveness in identifying whether a given answer is grounded in the provided context. Unlike existing approaches, this metric is computationally efficient, interpretable, and adaptable to various use cases, offering a scalable and practical solution to assess context utilization in open-book QA systems.
- Abstract(参考訳): 大規模言語モデル (LLM) は、与えられた外部コンテキストに根ざした回答を生成することを必要とするオープンブック質問応答 (QA) において、かなりの成功を収めている。
オープンブックのQAにおける重要な課題は、モデル応答がパラメトリックな知識ではなく、提供されたコンテキストに基づいていることを保証することだ。
既存の評価手法は、主にLLM-as-a-judgeアプローチに基づいており、バイアス、スケーラビリティの問題、コストのかかる外部システムへの依存など、重大な制限に直面している。
これらの課題に対処するために、コンテキストが提供されたときとそうでないときという2つの条件下でモデル応答の難易度を対比する新しい指標を提案する。
結果のスコアは、与えられたコンテキストに依存するモデルの回答の範囲を定量化する。
この計量の妥当性は、与えられた解答が与えられた文脈で根拠づけられているかどうかを特定する上での有効性を示す一連の実験によって示される。
既存のアプローチとは異なり、このメトリックは計算効率が高く、解釈可能で、様々なユースケースに適応可能であり、オープンブックのQAシステムにおけるコンテキスト利用を評価するためのスケーラブルで実用的なソリューションを提供する。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Uncertainty Quantification in Retrieval Augmented Question Answering [57.05827081638329]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。
我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文 参考訳(メタデータ) (2025-02-25T11:24:52Z) - Context Filtering with Reward Modeling in Question Answering [7.668954669688971]
Reward Modelingを通して重要コンテンツを要約し、非重要詳細を除去するコンテキストフィルタリング手法を導入する。
EMパートークン(EPT)の6.8倍の増大により,本手法がベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-12-16T12:29:24Z) - Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning [5.053086684547045]
本研究では、ALMの推論能力を高めるために、文脈内学習に基づくアプローチを導入する。
我々のアプローチは、追加の微調整を必要とせずに、解決不可能なシナリオと矛盾するシナリオを特定する精度を高める。
論文 参考訳(メタデータ) (2024-08-08T12:42:43Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Towards Better Question Generation in QA-based Event Extraction [3.699715556687871]
イベント抽出(EE)は、構造化されていないテキストからイベント関連情報を抽出することを目的としている。
質問の品質は、抽出精度に劇的に影響を及ぼす。
本稿では,QAベースのEEのための強化学習手法RLQGを提案する。
論文 参考訳(メタデータ) (2024-05-17T03:52:01Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Context Modeling with Evidence Filter for Multiple Choice Question
Answering [18.154792554957595]
MCQA(Multi-Choice Question Answering)は、機械読解における課題である。
主な課題は、正しい答えをサポートする与えられたコンテキストから"エビデンス"を抽出することである。
既存の作業は、人間の努力に過度に依存するルールで注釈付きエビデンスや遠方の監督によってこの問題に取り組む。
本稿では,エンコードされた文脈間の関係をモデル化するためのエビデンスフィルタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-06T11:53:23Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。