論文の概要: WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada
- arxiv url: http://arxiv.org/abs/2504.13231v2
- Date: Thu, 15 May 2025 14:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.442247
- Title: WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada
- Title(参考訳): WildFireCan-MMD:カナダにおける山火事時のユーザ生成コンテンツの分類のためのマルチモーダルデータセット
- Authors: Braeden Sherritt, Isar Nejadgholi, Marzieh Amini,
- Abstract要約: ソーシャルメディアはリアルタイムのアップデートを提供するが、関連する洞察を抽出することは依然として課題だ。
我々は、最近のカナダの山火事から得られたXポストのマルチモーダルデータセットであるWildFireCan-MMDを紹介する。
調査の結果は、カスタマイズされたデータセットとタスク固有のトレーニングの持続的重要性を強調した。
- 参考スコア(独自算出の注目度): 6.5067871496614496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid information access is vital during wildfires, yet traditional data sources are slow and costly. Social media offers real-time updates, but extracting relevant insights remains a challenge. We present WildFireCan-MMD, a new multimodal dataset of X posts from recent Canadian wildfires, annotated across twelve key themes. Evaluating both vision-language models and custom-trained classifiers, we show that while zero-shot prompting offers quick deployment, even simple trained models outperform them when labelled data is available. Our best-performing transformer-based fine-tuned model reaches 83% f-score, outperforming gpt4 by 23%. As a use case, we demonstrate how this model can be used to uncover trends during wildfires. Our findings highlight the enduring importance of tailored datasets and task-specific training. Importantly, such datasets should be localized, as disaster response requirements vary across regions and contexts.
- Abstract(参考訳): 急激な情報アクセスは山火事の間は不可欠だが、従来のデータソースは遅くてコストがかかる。
ソーシャルメディアはリアルタイムのアップデートを提供するが、関連する洞察を抽出することは依然として課題だ。
我々は、最近のカナダの山火事のXポストのマルチモーダルデータセットであるWildFireCan-MMDを紹介し、12のキーテーマに注釈を付けた。
視覚言語モデルとカスタムトレーニングされた分類器の両方を評価することで、ゼロショットプロンプトは迅速なデプロイメントを提供する一方で、ラベル付きデータが利用可能であれば、単純なトレーニングされたモデルでも性能が向上することを示した。
我々の最高性能のトランスフォーマーベース微調整モデルは83%のfスコアに達し、gpt4を23%上回る。
実例として,このモデルを用いて山火事時の傾向を明らかにする方法を示す。
調査の結果は、カスタマイズされたデータセットとタスク固有のトレーニングの持続的重要性を浮き彫りにした。
重要なことは、災害対応要求が地域や状況によって異なるため、そのようなデータセットをローカライズする必要がある。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Semi-Supervised Domain Adaptation for Wildfire Detection [20.86166825570607]
本稿では,オブジェクト検出に半教師付きドメイン適応を利用する,山火事検出のための新しいプロトコルを提案する。
我々のデータセットは、現在の最大のベンチマークワイルドファイアデータセットHPWRENの30倍の多様性を持つラベル付きシーンを含んでいる。
我々のフレームワークは、平均精度の3.8%という顕著なマージンで、ソースのみのベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2024-04-02T11:03:13Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Correlated Time Series Self-Supervised Representation Learning via
Spatiotemporal Bootstrapping [13.988624652592259]
時系列分析は多くの実業界で重要な役割を担っている。
本稿では,個別インスタンスを対象とした時間段階表現学習フレームワークを提案する。
学習した表現の上に訓練された線形回帰モデルにより、ほとんどの場合、我々のモデルは最高のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-12T09:42:16Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Pre-trained Language Model with Prompts for Temporal Knowledge Graph
Completion [30.50032335014021]
我々は、新しいTKGCモデル、すなわち、TKGC(PPT)のための Prompts 付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換することで、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-13T12:53:11Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Multi-time Predictions of Wildfire Grid Map using Remote Sensing Local
Data [0.0]
本稿では,米国西部の10か所で収集されたローカルデータをローカルエージェントで共有する分散学習フレームワークを提案する。
提案モデルには,動的オンライン推定や時系列モデリングなど,予測評価における特徴的ニーズに対処する特徴がある。
論文 参考訳(メタデータ) (2022-09-15T22:34:06Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。