論文の概要: DisastQA: A Comprehensive Benchmark for Evaluating Question Answering in Disaster Management
- arxiv url: http://arxiv.org/abs/2601.03670v1
- Date: Wed, 07 Jan 2026 07:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.371143
- Title: DisastQA: A Comprehensive Benchmark for Evaluating Question Answering in Disaster Management
- Title(参考訳): DisastQA:災害管理における質問応答評価のための総合的ベンチマーク
- Authors: Zhitong Chen, Kai Yin, Xiangjue Dong, Chengkai Liu, Xiangpeng Li, Yiming Xiao, Bo Li, Junwei Ma, Ali Mostafavi, James Caverlee,
- Abstract要約: 我々は8つの災害タイプにまたがる3000の厳格に検証された質問(2000の多重選択と1,000のオープンエンド)の大規模ベンチマークであるDisastQAを紹介した。
オープンエンドQAでは,冗長性よりも事実的完全性を重視した,人間の検証されたキーポイントに基づく評価プロトコルを提案する。
20モデルを用いた実験では、MMLU-Proのような汎用のリーダーボードとはかなりの相違が見られる。
- 参考スコア(独自算出の注目度): 27.25517951457221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate question answering (QA) in disaster management requires reasoning over uncertain and conflicting information, a setting poorly captured by existing benchmarks built on clean evidence. We introduce DisastQA, a large-scale benchmark of 3,000 rigorously verified questions (2,000 multiple-choice and 1,000 open-ended) spanning eight disaster types. The benchmark is constructed via a human-LLM collaboration pipeline with stratified sampling to ensure balanced coverage. Models are evaluated under varying evidence conditions, from closed-book to noisy evidence integration, enabling separation of internal knowledge from reasoning under imperfect information. For open-ended QA, we propose a human-verified keypoint-based evaluation protocol emphasizing factual completeness over verbosity. Experiments with 20 models reveal substantial divergences from general-purpose leaderboards such as MMLU-Pro. While recent open-weight models approach proprietary systems in clean settings, performance degrades sharply under realistic noise, exposing critical reliability gaps for disaster response. All code, data, and evaluation resources are available at https://github.com/TamuChen18/DisastQA_open.
- Abstract(参考訳): 災害管理における正確な質問応答 (QA) には、不確実で矛盾する情報を推論する必要がある。
我々は8つの災害タイプにまたがる3000の厳格に検証された質問(2000の多重選択と1,000のオープンエンド)の大規模ベンチマークであるDisastQAを紹介した。
ベンチマークは、バランスの取れたカバレッジを確保するため、階層化されたサンプリングを備えた人間-LLMコラボレーションパイプラインによって構築される。
モデルは、クローズドブックからノイズのあるエビデンス統合まで、様々なエビデンス条件の下で評価され、不完全な情報に基づく推論から内部知識の分離を可能にする。
オープンエンドQAでは,冗長性よりも事実的完全性を重視した,人間の検証されたキーポイントに基づく評価プロトコルを提案する。
20モデルを用いた実験では、MMLU-Proのような汎用のリーダーボードとはかなりの相違が見られる。
最近のオープンウェイトモデルは、クリーンな設定でプロプライエタリなシステムにアプローチする一方、パフォーマンスは現実的なノイズの下で著しく低下し、災害対応のための重要な信頼性のギャップを露呈する。
すべてのコード、データ、評価リソースはhttps://github.com/TamuChen18/DisastQA_openで入手できる。
関連論文リスト
- Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks [2.3188831772813105]
本稿では、既存のQAデータセットを構造化された敵対的議論に変換する議論駆動評価パラダイムを提案する。
我々は,(1)QAタスクを議論に基づく評価に体系的に変換する評価パイプライン,(2)MMLU-Pro質問のサブセットにおけるパラダイムの有効性を示す公開ベンチマークの2つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-07-23T17:58:14Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - When Claims Evolve: Evaluating and Enhancing the Robustness of Embedding Models Against Misinformation Edits [5.443263983810103]
ユーザーはオンラインでクレームと対話するので、しばしば編集を導入し、現在の埋め込みモデルがそのような編集に堅牢かどうかは不明だ。
本研究では, 文埋め込みモデルの頑健性を評価するために, 有効かつ自然なクレーム変動を生成する摂動フレームワークを提案する。
評価の結果,標準埋込モデルでは編集されたクレームに顕著な性能低下がみられ,LCM蒸留埋込モデルでは高い計算コストでロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:47:32Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。