論文の概要: WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada
- arxiv url: http://arxiv.org/abs/2504.13231v3
- Date: Wed, 03 Sep 2025 16:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:02.955434
- Title: WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada
- Title(参考訳): WildFireCan-MMD:カナダにおける山火事時のユーザ生成コンテンツの分類のためのマルチモーダルデータセット
- Authors: Braeden Sherritt, Isar Nejadgholi, Efstratios Aivaliotis, Khaled Mslmani, Marzieh Amini,
- Abstract要約: 我々は、最近のカナダの山火事から得られたXポストのマルチモーダルデータセットであるWildFireCan-MMDを紹介する。
このデータセット上でゼロショット視覚言語モデルを評価し、その結果をカスタムトレーニングおよびベースライン分類器と比較する。
我々の最高のパフォーマンスのカスタムモデルは84.48%のfスコアに達し、VLMとベースライン分類器を上回っている。
- 参考スコア(独自算出の注目度): 3.544737059518234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid information access is vital during wildfires, yet traditional data sources are slow and costly. Social media offers real-time updates, but extracting relevant insights remains a challenge. In this work, we focus on multimodal wildfire social media data, which, although existing in current datasets, is currently underrepresented in Canadian contexts. We present WildFireCan-MMD, a new multimodal dataset of X posts from recent Canadian wildfires, annotated across twelve key themes. We evaluate zero-shot vision-language models on this dataset and compare their results with those of custom-trained and baseline classifiers. We show that while baseline methods and zero-shot prompting offer quick deployment, custom-trained models outperform them when labelled data is available. Our best-performing custom model reaches 84.48% f-score, outperforming VLMs and baseline classifiers. We also demonstrate how this model can be used to uncover trends during wildfires, through the collection and analysis of a large unlabeled dataset. Our dataset facilitates future research in wildfire response, and our findings highlight the importance of tailored datasets and task-specific training. Importantly, such datasets should be localized, as disaster response requirements vary across regions and contexts.
- Abstract(参考訳): 急激な情報アクセスは山火事の間は不可欠だが、従来のデータソースは遅くてコストがかかる。
ソーシャルメディアはリアルタイムのアップデートを提供するが、関連する洞察を抽出することは依然として課題だ。
本研究では、現在のデータセットには存在するが、現在、カナダの文脈では表現されていないマルチモーダルな山火事のソーシャルメディアデータに焦点を当てる。
我々は、最近のカナダの山火事のXポストのマルチモーダルデータセットであるWildFireCan-MMDを紹介し、12のキーテーマに注釈を付けた。
このデータセット上でゼロショット視覚言語モデルを評価し、その結果をカスタムトレーニングおよびベースライン分類器と比較する。
ベースラインメソッドとゼロショットプロンプトは迅速なデプロイメントを提供するが、ラベル付きデータが利用可能になった場合、カスタムトレーニングされたモデルの方が優れていることを示す。
我々の最高のパフォーマンスのカスタムモデルは84.48%のfスコアに達し、VLMとベースライン分類器を上回っている。
また,このモデルを用いて,大規模未ラベルデータセットの収集と解析を通じて,山火事時の傾向を明らかにする方法も示す。
我々のデータセットは、今後の山火事対策の研究を促進するものであり、我々の発見は、調整されたデータセットとタスク固有のトレーニングの重要性を強調している。
重要なことは、災害対応要求が地域や状況によって異なるため、そのようなデータセットをローカライズする必要がある。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - BCWildfire: A Long-term Multi-factor Dataset and Deep Learning Benchmark for Boreal Wildfire Risk Prediction [12.480140332312695]
ブリティッシュコロンビア州とその周辺地域で4億4000万ヘクタールに及ぶ,25年間の日次分解能の山火事データセットを提示する。
我々は,CNNベース,線形ベース,トランスフォーマーベース,マンバベースアーキテクチャなど,さまざまな時系列予測モデルを評価する。
論文 参考訳(メタデータ) (2025-11-17T22:13:00Z) - Explaining Categorical Feature Interactions Using Graph Covariance and LLMs [18.44675735926458]
本稿では,Counter Trafficking Data Collaborativeからのグローバルな合成データセットに焦点を当てる。
2002年から2022年にかけて20,000件以上の匿名化された記録があり、それぞれのレコードに多くの分類学的特徴がある。
本稿では,重要な分類的特徴の相互作用を分析し,抽出するための高速でスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T21:41:26Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-07T20:21:07Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Semi-Supervised Domain Adaptation for Wildfire Detection [20.86166825570607]
本稿では,オブジェクト検出に半教師付きドメイン適応を利用する,山火事検出のための新しいプロトコルを提案する。
我々のデータセットは、現在の最大のベンチマークワイルドファイアデータセットHPWRENの30倍の多様性を持つラベル付きシーンを含んでいる。
我々のフレームワークは、平均精度の3.8%という顕著なマージンで、ソースのみのベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2024-04-02T11:03:13Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Correlated Time Series Self-Supervised Representation Learning via
Spatiotemporal Bootstrapping [13.988624652592259]
時系列分析は多くの実業界で重要な役割を担っている。
本稿では,個別インスタンスを対象とした時間段階表現学習フレームワークを提案する。
学習した表現の上に訓練された線形回帰モデルにより、ほとんどの場合、我々のモデルは最高のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-12T09:42:16Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Pre-trained Language Model with Prompts for Temporal Knowledge Graph
Completion [30.50032335014021]
我々は、新しいTKGCモデル、すなわち、TKGC(PPT)のための Prompts 付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換することで、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-13T12:53:11Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Multi-time Predictions of Wildfire Grid Map using Remote Sensing Local
Data [0.0]
本稿では,米国西部の10か所で収集されたローカルデータをローカルエージェントで共有する分散学習フレームワークを提案する。
提案モデルには,動的オンライン推定や時系列モデリングなど,予測評価における特徴的ニーズに対処する特徴がある。
論文 参考訳(メタデータ) (2022-09-15T22:34:06Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Reconstruction of Incomplete Wildfire Data using Deep Generative Models [0.0]
我々は、Missing Data Conditional-Weighted Autocoderen (CMIWAE)と呼ばれる強力な変分オートエンコーダモデルの変種を示す。
我々の深層変数生成モデルは機能エンジニアリングをほとんど必要とせず、必ずしもデータチャレンジのスコアの特異性に依存していません。
論文 参考訳(メタデータ) (2022-01-16T23:27:31Z) - Learning Wildfire Model from Incomplete State Observations [0.0]
我々は、深層ニューラルネットワークを用いて、米国西部の5か所の将来の山火事予測のための動的モデルを作成します。
提案モデルには,動的オンライン推定や時系列モデリングなど,予測評価における特徴的ニーズに対処する特徴がある。
論文 参考訳(メタデータ) (2021-11-28T03:21:46Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。