論文の概要: Multimodal Learning with Augmentation Techniques for Natural Disaster Assessment
- arxiv url: http://arxiv.org/abs/2511.00004v1
- Date: Sat, 04 Oct 2025 18:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-09 16:58:40.016843
- Title: Multimodal Learning with Augmentation Techniques for Natural Disaster Assessment
- Title(参考訳): 自然災害評価のための強化手法によるマルチモーダル学習
- Authors: Adrian-Dinu Urse, Dumitru-Clementin Cercel, Florin Pop,
- Abstract要約: 災害評価は情報への正確かつ迅速なアクセスに依存しており、ソーシャルメディアは貴重なリアルタイム情報源である。
本稿では,CrisisMMDマルチモーダルデータセット上でこれらの問題に対処するための拡張手法について検討する。
視覚データに対して拡散に基づく手法、すなわちReal GuidanceとDiffuseMixを適用する。
テキストデータについては、バック翻訳、トランスフォーマーによる言い換え、画像キャプションに基づく拡張について検討する。
- 参考スコア(独自算出の注目度): 3.0911537708814483
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural disaster assessment relies on accurate and rapid access to information, with social media emerging as a valuable real-time source. However, existing datasets suffer from class imbalance and limited samples, making effective model development a challenging task. This paper explores augmentation techniques to address these issues on the CrisisMMD multimodal dataset. For visual data, we apply diffusion-based methods, namely Real Guidance and DiffuseMix. For text data, we explore back-translation, paraphrasing with transformers, and image caption-based augmentation. We evaluated these across unimodal, multimodal, and multi-view learning setups. Results show that selected augmentations improve classification performance, particularly for underrepresented classes, while multi-view learning introduces potential but requires further refinement. This study highlights effective augmentation strategies for building more robust disaster assessment systems.
- Abstract(参考訳): 自然災害評価は情報への正確かつ迅速なアクセスに依存しており、ソーシャルメディアは貴重なリアルタイム情報源である。
しかし、既存のデータセットはクラス不均衡と限られたサンプルに悩まされており、効果的なモデル開発が困難な課題となっている。
本稿では,CrisisMMDマルチモーダルデータセット上でこれらの問題に対処するための拡張手法について検討する。
視覚データに対して拡散に基づく手法、すなわちReal GuidanceとDiffuseMixを適用する。
テキストデータについては、バック翻訳、トランスフォーマーによる言い換え、画像キャプションに基づく拡張について検討する。
我々はこれらを,一元学習,マルチモーダル学習,マルチビュー学習で評価した。
結果から,選択された拡張によって分類性能が向上し,特に表現不足のクラスでは,多視点学習が実現されるが,さらなる改良が必要であることが示唆された。
本研究は、より堅牢な災害評価システムを構築するための効果的な拡張戦略を強調した。
関連論文リスト
- Differential Attention for Multimodal Crisis Event Analysis [1.5030693386126894]
ソーシャルネットワークは危機時の貴重な情報源になり得る。
危機データの分類を強化するために,視覚言語モデル(VLM)と高度な融合戦略を検討する。
以上の結果から,事前学習されたVLM,リッチテキスト記述,適応融合戦略の組み合わせは,分類精度において常に最先端のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-07T16:20:35Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - A Review of Image Retrieval Techniques: Data Augmentation and Adversarial Learning Approaches [0.0]
本稿では,検索性能向上におけるデータ強化と対人学習技術の役割について概説する。
データ拡張は、より多様なトレーニングサンプルを生成し、現実世界のバリエーションをシミュレートし、オーバーフィッティングを減らすことで、モデルの一般化能力と堅牢性を高める。
敵の攻撃と防衛は 訓練中に混乱をもたらす 潜在的な攻撃に対する モデルの堅牢性を改善するために
論文 参考訳(メタデータ) (2024-09-02T12:55:17Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [50.122541222825156]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - Diffusion Deepfake [41.59597965760673]
生成AIの最近の進歩は、主に拡散モデルを通じて、現実世界のディープフェイク検出において大きな課題を呈している。
画像の詳細、多様なコンテンツ、そして一般大衆への幅広いアクセス性におけるリアリズムの増加は、これらの洗練されたディープフェイクの識別を複雑にしている。
本稿では,最先端拡散モデルにより生成された2つの広範囲なディープフェイクデータセットを紹介する。
論文 参考訳(メタデータ) (2024-04-02T02:17:50Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。