論文の概要: Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media
- arxiv url: http://arxiv.org/abs/2603.18611v1
- Date: Thu, 19 Mar 2026 08:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.031104
- Title: Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media
- Title(参考訳): ソーシャルメディア上の説明可能な人道的分類のためのクロスモーダル・ライナリー・トランスファー
- Authors: Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl,
- Abstract要約: 本稿では,解釈可能なマルチモーダル分類フレームワークを提案する。
提案手法はマクロF1の分類を2~35%向上させる。
提案手法はゼロショットモードの新たな未知のデータセットによく適応し,80%の精度を実現している。
- 参考スコア(独自算出の注目度): 8.788077041327773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in social media data dissemination enable the provision of real-time information during a crisis. The information comes from different classes, such as infrastructure damages, persons missing or stranded in the affected zone, etc. Existing methods attempted to classify text and images into various humanitarian categories, but their decision-making process remains largely opaque, which affects their deployment in real-life applications. Recent work has sought to improve transparency by extracting textual rationales from tweets to explain predicted classes. However, such explainable classification methods have mostly focused on text, rather than crisis-related images. In this paper, we propose an interpretable-by-design multimodal classification framework. Our method first learns the joint representation of text and image using a visual language transformer model and extracts text rationales. Next, it extracts the image rationales via the mapping with text rationales. Our approach demonstrates how to learn rationales in one modality from another through cross-modal rationale transfer, which saves annotation effort. Finally, tweets are classified based on extracted rationales. Experiments are conducted over CrisisMMD benchmark dataset, and results show that our proposed method boosts the classification Macro-F1 by 2-35% while extracting accurate text tokens and image patches as rationales. Human evaluation also supports the claim that our proposed method is able to retrieve better image rationale patches (12%) that help to identify humanitarian classes. Our method adapts well to new, unseen datasets in zero-shot mode, achieving an accuracy of 80%.
- Abstract(参考訳): ソーシャルメディアデータの普及により、危機時のリアルタイム情報の提供が可能になる。
情報は、インフラストラクチャの損傷や、影響を受けたゾーンに行方不明または立ち往生している人など、さまざまなクラスから来ている。
既存の手法では、テキストやイメージをさまざまな人道的カテゴリーに分類しようとしたが、その意思決定プロセスはほとんど不透明であり、実際のアプリケーションへの展開に影響を与える。
最近の研究は、予測されたクラスを説明するためにツイートから文章の合理性を抽出することで透明性を向上させることを目指している。
しかし、このような説明可能な分類法は、危機関連画像ではなく、主にテキストに焦点を当てている。
本稿では,解釈可能なマルチモーダル分類フレームワークを提案する。
本手法はまず,視覚言語トランスフォーマーモデルを用いてテキストと画像の結合表現を学習し,テキストの合理性を抽出する。
次に、テキスト合理化を用いたマッピングにより、画像合理化を抽出する。
提案手法は,1つのモダリティにおける有理を相互に有理変換によって学習する方法を示し,アノテーションの労力を節約する。
最後に、ツイートは抽出された根拠に基づいて分類される。
CrisisMMDベンチマークデータセットを用いて実験を行い、提案手法により、正確なテキストトークンと画像パッチを合理的に抽出しながら、マクロF1の分類を2~35%向上することを示した。
また,提案手法は,人道的クラスを特定する上で有効な,より優れた画像合理化パッチ(12%)を検索できるという主張も支持している。
提案手法はゼロショットモードの新たな未知のデータセットによく適応し,80%の精度を実現している。
関連論文リスト
- Leveraging Text Guidance for Enhancing Demographic Fairness in Gender Classification [0.0]
主な戦略として、画像テキストマッチング(ITM)ガイダンスと画像テキスト融合がある。
ベンチマークデータセット上で実施された調査実験は、これらのアプローチがバイアスを効果的に軽減し、既存の方法と比較して男女間における精度を向上させることを実証している。
論文 参考訳(メタデータ) (2025-12-11T17:56:09Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。
提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文 参考訳(メタデータ) (2021-02-16T11:28:50Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。