論文の概要: Consensus or Conflict? Fine-Grained Evaluation of Conflicting Answers in Question-Answering
- arxiv url: http://arxiv.org/abs/2508.12355v1
- Date: Sun, 17 Aug 2025 12:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.700462
- Title: Consensus or Conflict? Fine-Grained Evaluation of Conflicting Answers in Question-Answering
- Title(参考訳): コンセンサス」と「コンセンサス」 : 質問応答における「コンセンサス」と「コンセンサス」の比較
- Authors: Eviatar Nachshoni, Arie Cattan, Shmuel Amar, Ori Shapira, Ido Dagan,
- Abstract要約: 質問に有効な回答がいくつかあるようなマルチ回答質問回答 (MAQA) は依然として困難である。
本研究では,NATCONFQAの構築にファクトチェックデータセットを活用するための,コスト効率の高い新しい手法を提案する。
NATCONFQA 上で8つのハイエンド LLM を評価し,多種多様な競合に対処する際の脆弱さを明らかにした。
- 参考スコア(独自算出の注目度): 22.447638522275092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong performance in question answering (QA) tasks. However, Multi-Answer Question Answering (MAQA), where a question may have several valid answers, remains challenging. Traditional QA settings often assume consistency across evidences, but MAQA can involve conflicting answers. Constructing datasets that reflect such conflicts is costly and labor-intensive, while existing benchmarks often rely on synthetic data, restrict the task to yes/no questions, or apply unverified automated annotation. To advance research in this area, we extend the conflict-aware MAQA setting to require models not only to identify all valid answers, but also to detect specific conflicting answer pairs, if any. To support this task, we introduce a novel cost-effective methodology for leveraging fact-checking datasets to construct NATCONFQA, a new benchmark for realistic, conflict-aware MAQA, enriched with detailed conflict labels, for all answer pairs. We evaluate eight high-end LLMs on NATCONFQA, revealing their fragility in handling various types of conflicts and the flawed strategies they employ to resolve them.
- Abstract(参考訳): 大規模言語モデル(LLM)は質問応答(QA)タスクにおいて高いパフォーマンスを示している。
しかし、質問に有効な回答がいくつかあるかもしれないマルチ回答質問回答 (MAQA) は依然として困難である。
従来のQA設定では、エビデンス間で一貫性を仮定することが多いが、MAQAには矛盾する回答が伴うことがある。
このような矛盾を反映したデータセットの構築には費用がかかり、労力がかかるが、既存のベンチマークでは、合成データに依存したり、イエス/ノーの質問にタスクを制限したり、検証されていない自動アノテーションを適用したりすることが多い。
この領域の研究を進めるために、コンフリクト対応のMAQA設定を拡張し、すべての有効な回答を識別するだけでなく、もしあれば特定の競合する回答ペアを検出するためにモデルを必要とする。
この課題を支援するために,ファクトチェックデータセットを活用してNATCONFQAを構築するための新たな費用対効果手法を提案する。
NATCONFQA 上での8つのハイエンド LLM の評価を行い、様々な種類の紛争に対処する際の脆弱さと、それらを解決するために彼らが採用する欠陥戦略を明らかにした。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。
マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。
具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文 参考訳(メタデータ) (2023-12-23T08:32:13Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - How to Build Robust FAQ Chatbot with Controllable Question Generator? [5.680871239968297]
本稿では, セマンティックグラフを用いて, 高い品質, 多様性, 制御可能なサンプルを生成する手法を提案する。
流動的でセマンティックに生成されたQAペアは、我々の通過検索モデルをうまく騙すことができる。
生成されたデータセットは、新しいターゲット領域へのQAモデルの一般化性を向上させる。
論文 参考訳(メタデータ) (2021-11-18T12:54:07Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Do not let the history haunt you -- Mitigating Compounding Errors in
Conversational Question Answering [17.36904526340775]
事前に予測された回答をテスト時に使用すると、複合的なエラーが発生する。
本研究では,目標解とモデル予測を動的に選択するサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2020-05-12T13:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。