論文の概要: TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection
- arxiv url: http://arxiv.org/abs/2303.09314v2
- Date: Mon, 24 Apr 2023 09:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 20:38:32.862168
- Title: TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection
- Title(参考訳): TOT:マルチモーダルヘイト検出のためのトポロジーを考慮した最適輸送
- Authors: Linhao Zhang, Li Jin, Xian Sun, Guangluan Xu, Zequn Zhang, Xiaoyu Li,
Nayu Liu, Qing Liu, Shiyao Yan
- Abstract要約: 我々は,ミームシナリオにおける暗黙の害を解読するトポロジ対応の最適輸送フレームワークTOTを提案する。
具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。
公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスは、さらなるビジュアル分析とともに、TOTの優位性を示している。
- 参考スコア(独自算出の注目度): 18.015012133043093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal hate detection, which aims to identify harmful content online such
as memes, is crucial for building a wholesome internet environment. Previous
work has made enlightening exploration in detecting explicit hate remarks.
However, most of their approaches neglect the analysis of implicit harm, which
is particularly challenging as explicit text markers and demographic visual
cues are often twisted or missing. The leveraged cross-modal attention
mechanisms also suffer from the distributional modality gap and lack logical
interpretability. To address these semantic gaps issues, we propose TOT: a
topology-aware optimal transport framework to decipher the implicit harm in
memes scenario, which formulates the cross-modal aligning problem as solutions
for optimal transportation plans. Specifically, we leverage an optimal
transport kernel method to capture complementary information from multiple
modalities. The kernel embedding provides a non-linear transformation ability
to reproduce a kernel Hilbert space (RKHS), which reflects significance for
eliminating the distributional modality gap. Moreover, we perceive the topology
information based on aligned representations to conduct bipartite graph path
reasoning. The newly achieved state-of-the-art performance on two publicly
available benchmark datasets, together with further visual analysis,
demonstrate the superiority of TOT in capturing implicit cross-modal alignment.
- Abstract(参考訳): ミームなどの有害なコンテンツを特定することを目的としたマルチモーダルヘイト検出は、インターネット環境全体の構築に不可欠である。
これまでの研究は、露骨な憎しみの発言を検出するための啓蒙的な探求をしてきた。
しかし、これらのアプローチのほとんどは暗黙の害の分析を無視しており、明示的なテキストマーカーや人口統計学的手がかりがしばしばねじれや欠落しているため、特に難しい。
レバレッジド・クロスモーダル・アテンション機構は分布のモダリティギャップに悩まされ、論理的解釈性に欠ける。
これらの意味的ギャップに対処するために,我々は,最適輸送計画の解としてクロスモーダル整列問題を定式化したミームシナリオにおける暗黙的危害を解くトポロジー対応最適輸送フレームワークtotを提案する。
具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。
カーネル埋め込みは、カーネルヒルベルト空間(英語版)(rkhs)を再現する非線形変換能力を提供する。
さらに,2部グラフの経路推論を行うために,アライメント表現に基づくトポロジ情報を知覚する。
公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスと、さらなるビジュアル分析は、暗黙的なクロスモーダルアライメントのキャプチャにおけるTOTの優位性を実証している。
関連論文リスト
- GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。
提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-21T03:33:07Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Cross-Modal Translation and Alignment for Survival Analysis [7.657906359372181]
本研究は,本質的な相互モーダル相関と伝達電位補間情報について検討する枠組みを提案する。
5つの公開TCGAデータセットに対する実験により、提案したフレームワークが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-22T13:29:14Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Multimodal Trajectory Prediction via Topological Invariance for
Navigation at Uncontrolled Intersections [45.508973373913946]
道路交差点において,信号機や信号機を使わずに複数の非通信的合理的エージェント間の分散ナビゲーションに着目した。
我々の重要な洞察は、交差点の幾何学的構造と、効率的に動くエージェントのインセンティブが衝突を避け(合理性)、起こりうる行動の空間を減少させるということである。
マルチエージェント交差点シーンにおける高次モードの軌道表現を再構成するデータ駆動型軌道予測機構であるMTPを設計する。
論文 参考訳(メタデータ) (2020-11-08T02:56:42Z) - Representation Learning via Adversarially-Contrastive Optimal Transport [40.52344027750609]
我々はその問題をコントラスト表現学習の文脈に設定した。
本稿では,ワッサースタイン GAN と新しい分類器を結合するフレームワークを提案する。
我々の結果は、挑戦的なベースラインに対する競争力を示す。
論文 参考訳(メタデータ) (2020-07-11T19:46:18Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。