論文の概要: DisastIR: A Comprehensive Information Retrieval Benchmark for Disaster Management
- arxiv url: http://arxiv.org/abs/2505.15856v1
- Date: Tue, 20 May 2025 20:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.814991
- Title: DisastIR: A Comprehensive Information Retrieval Benchmark for Disaster Management
- Title(参考訳): DisastIR:災害管理のための総合的情報検索ベンチマーク
- Authors: Kai Yin, Xiangjue Dong, Chengkai Liu, Lipai Huang, Yiming Xiao, Zhewei Liu, Ali Mostafavi, James Caverlee,
- Abstract要約: 本稿では,災害管理に適した総合的情報検索評価ベンチマークであるDisastIRを紹介する。
DisastIRは、9600の多様なユーザクエリと、130万以上のラベル付きクエリパスペアで構成され、48の異なる検索タスクをカバーしている。
30の最先端検索モデルの評価結果から,タスク間の性能の相違が顕著であり,一つのモデルが普遍的に優れているわけではない。
- 参考スコア(独自算出の注目度): 15.206498400602126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective disaster management requires timely access to accurate and contextually relevant information. Existing Information Retrieval (IR) benchmarks, however, focus primarily on general or specialized domains, such as medicine or finance, neglecting the unique linguistic complexity and diverse information needs encountered in disaster management scenarios. To bridge this gap, we introduce DisastIR, the first comprehensive IR evaluation benchmark specifically tailored for disaster management. DisastIR comprises 9,600 diverse user queries and more than 1.3 million labeled query-passage pairs, covering 48 distinct retrieval tasks derived from six search intents and eight general disaster categories that include 301 specific event types. Our evaluations of 30 state-of-the-art retrieval models demonstrate significant performance variances across tasks, with no single model excelling universally. Furthermore, comparative analyses reveal significant performance gaps between general-domain and disaster management-specific tasks, highlighting the necessity of disaster management-specific benchmarks for guiding IR model selection to support effective decision-making in disaster management scenarios. All source codes and DisastIR are available at https://github.com/KaiYin97/Disaster_IR.
- Abstract(参考訳): 効果的な災害管理には、正確で文脈に関連のある情報へのタイムリーなアクセスが必要である。
しかし、既存のIR(Information Retrieval)ベンチマークは主に医療や金融といった一般的な分野や専門分野に焦点を当てており、災害管理のシナリオで発生するユニークな言語的複雑さと多様な情報を無視している。
このギャップを埋めるために,災害管理に特化したIR評価ベンチマークであるDisastIRを導入する。
DisastIRは、9600の多様なユーザクエリと、130万以上のラベル付きクエリパスペアで構成され、6つの検索意図から派生した48の異なる検索タスクと、301の特定のイベントタイプを含む8つの一般的な災害カテゴリを含んでいる。
30の最先端検索モデルの評価結果から,タスク間の性能の相違が顕著であり,一つのモデルが普遍的に優れているわけではない。
さらに, 災害管理シナリオにおける効果的な意思決定を支援するために, 災害管理固有のIRモデル選択を導くための, 災害管理固有のベンチマークの必要性を強調した。
すべてのソースコードとDisastIRはhttps://github.com/KaiYin97/Disaster_IRで入手できる。
関連論文リスト
- Detecting Actionable Requests and Offers on Social Media During Crises Using LLMs [8.17728833322492]
我々は、要求に関する危機関連情報を整理し、供給、緊急人員、行動の3つの重要な次元に提供するための、きめ細かい階層的な分類法を提案する。
本稿では,組込みデータベースからクラス固有のラベル付きサンプルを抽出し,ポストの検出と分類におけるモデルの性能を高めるクエリ特化Few-shot Learning (QSF Learning)を提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:58Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - RescueADI: Adaptive Disaster Interpretation in Remote Sensing Images with Autonomous Agents [11.08910129925713]
本稿では,複数の相関解釈タスクを計画・実行することで要求を解決する新しいタスクである適応的災害解釈(ADI)を紹介する。
我々はRescueADIという新しいデータセットを提案する。このデータセットには高解像度RSIと3つの接続された側面(計画、知覚、認識)のアノテーションが含まれている。
大規模言語モデル(LLM)によって駆動される自律エージェントを用いたタスク計画と実行のための新しい災害解釈手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T09:36:52Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - AIOps Solutions for Incident Management: Technical Guidelines and A Comprehensive Literature Review [0.29998889086656577]
本研究では,AIOpsの用語と分類について提案し,構造化されたインシデント管理手順を確立し,AIOpsフレームワークを構築するためのガイドラインを提供する。
目標は、インシデント管理のためのAIOpsの技術的および研究的な側面の包括的なレビューを提供することであり、知識を構造化し、ギャップを特定し、この分野における将来の発展の基礎を確立することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:32:22Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - ISSAFE: Improving Semantic Segmentation in Accidents by Fusing
Event-based Data [34.36975697486129]
本稿では,事故シナリオにおけるセマンティックセグメンテーションに関する課題を,事故データセットDADA-segとともに提示する。
イベントベースのマルチモーダルセグメンテーションアーキテクチャISSAFEを提案する。
提案手法は, 提案した評価セットに対して+8.2% mIoUの性能向上を達成し, 10以上の最先端セグメンテーション法を克服する。
論文 参考訳(メタデータ) (2020-08-20T14:03:34Z) - Event Prediction in the Big Data Era: A Systematic Survey [7.3810864598379755]
ビッグデータ時代において、イベント予測は実行可能な選択肢になりつつある。
本稿では,イベント予測の技術,応用,評価について,体系的かつ包括的な調査を行うことを目的とする。
論文 参考訳(メタデータ) (2020-07-19T23:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。