Fugu-MT 論文翻訳(概要): Multimodal Categorization of Crisis Events in Social Media

論文の概要: Multimodal Categorization of Crisis Events in Social Media

arxiv url: http://arxiv.org/abs/2004.04917v1
Date: Fri, 10 Apr 2020 06:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 20:10:13.115361
Title: Multimodal Categorization of Crisis Events in Social Media
Title（参考訳）: ソーシャルメディアにおける危機事象のマルチモーダル分類
Authors: Mahdi Abavisani and Liwei Wu and Shengli Hu and Joel Tetreault and Alejandro Jaimes
Abstract要約: 本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
参考スコア（独自算出の注目度）: 81.07061295887172
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent developments in image classification and natural language processing, coupled with the rapid growth in social media usage, have enabled fundamental advances in detecting breaking events around the world in real-time. Emergency response is one such area that stands to gain from these advances. By processing billions of texts and images a minute, events can be automatically detected to enable emergency response workers to better assess rapidly evolving situations and deploy resources accordingly. To date, most event detection techniques in this area have focused on image-only or text-only approaches, limiting detection performance and impacting the quality of information delivered to crisis response teams. In this paper, we present a new multimodal fusion method that leverages both images and texts as input. In particular, we introduce a cross-attention module that can filter uninformative and misleading components from weak modalities on a sample by sample basis. In addition, we employ a multimodal graph-based approach to stochastically transition between embeddings of different multimodal pairs during training to better regularize the learning process as well as dealing with limited training data by constructing new matched pairs from different samples. We show that our method outperforms the unimodal approaches and strong multimodal baselines by a large margin on three crisis-related tasks.
Abstract（参考訳）: 画像分類と自然言語処理の最近の進歩とソーシャルメディア利用の急速な成長は、世界中の破壊事象をリアルタイムで検出する根本的な進歩を可能にしている。緊急対応は、これらの進歩から得られるべき領域の1つである。 1分間に数十億のテキストや画像を処理することで、イベントを自動的に検出して、緊急対応ワーカーが急速に進化する状況を評価し、それに応じてリソースをデプロイできるようにする。これまで、この分野のほとんどのイベント検出技術は、画像のみまたはテキストのみのアプローチ、検出性能の制限、危機対応チームに提供された情報の品質への影響に焦点を当ててきた。本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合方式を提案する。特に,試料上の弱モダリティから不均一で誤解を招くコンポーネントをサンプルベースでフィルタリングできるクロスアテンションモジュールを提案する。さらに,学習中に異なるマルチモーダルペアの埋め込み間を確率的に遷移させるマルチモーダルグラフに基づくアプローチを採用し,異なるサンプルから新しいマッチングペアを構築することにより,学習プロセスをより規則化し,限られたトレーニングデータを扱う。本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。

関連論文リスト

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds [72.83227312675174]
本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
論文参考訳（メタデータ） (2025-03-17T20:06:48Z)
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文参考訳（メタデータ） (2025-01-13T18:37:36Z)
Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method [11.01048485795428]
そこで我々は,新たな暴力検出フレームワークを提案する。一助多目的学習(unimodal multiple-instance learning)は、一助多目的学習(unimodal semantic features)、多モーダルアライメント(multimodal alignment)、多モーダル融合(multimodal fusion)、最終検出(final detection)からなる。ベンチマークデータセットによる実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-13T17:14:25Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
TextAug: Test time Text Augmentation for Multimodal Person Re-identification [8.557492202759711]
マルチモーダルディープラーニングのボトルネックは、多数のマルチモーダルトレーニング例の必要性にある。画像領域では、トリミング、フリップ、回転などのデータ拡張技術がよく使われ、ディープラーニングモデルの一般化が向上する。本研究では,マルチモーダルな人物再識別において,カットアウトとカットミックスという2つのコンピュータビジョンデータ拡張手法の有効性について検討した。
論文参考訳（メタデータ） (2023-12-04T03:38:04Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文参考訳（メタデータ） (2023-05-16T06:19:03Z)
Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文参考訳（メタデータ） (2023-04-03T09:13:59Z)
Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文参考訳（メタデータ） (2023-02-25T10:12:34Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Cross-Modal Generalization: Learning in Low Resource Modalities via Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文参考訳（メタデータ） (2020-12-04T19:27:26Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。