Fugu-MT 論文翻訳(概要): TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection

論文の概要: TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection

arxiv url: http://arxiv.org/abs/2303.09314v2
Date: Mon, 24 Apr 2023 09:23:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 20:38:32.862168
Title: TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection
Title（参考訳）: TOT:マルチモーダルヘイト検出のためのトポロジーを考慮した最適輸送
Authors: Linhao Zhang, Li Jin, Xian Sun, Guangluan Xu, Zequn Zhang, Xiaoyu Li, Nayu Liu, Qing Liu, Shiyao Yan
Abstract要約: 我々は,ミームシナリオにおける暗黙の害を解読するトポロジ対応の最適輸送フレームワークTOTを提案する。具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスは、さらなるビジュアル分析とともに、TOTの優位性を示している。
参考スコア（独自算出の注目度）: 18.015012133043093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal hate detection, which aims to identify harmful content online such as memes, is crucial for building a wholesome internet environment. Previous work has made enlightening exploration in detecting explicit hate remarks. However, most of their approaches neglect the analysis of implicit harm, which is particularly challenging as explicit text markers and demographic visual cues are often twisted or missing. The leveraged cross-modal attention mechanisms also suffer from the distributional modality gap and lack logical interpretability. To address these semantic gaps issues, we propose TOT: a topology-aware optimal transport framework to decipher the implicit harm in memes scenario, which formulates the cross-modal aligning problem as solutions for optimal transportation plans. Specifically, we leverage an optimal transport kernel method to capture complementary information from multiple modalities. The kernel embedding provides a non-linear transformation ability to reproduce a kernel Hilbert space (RKHS), which reflects significance for eliminating the distributional modality gap. Moreover, we perceive the topology information based on aligned representations to conduct bipartite graph path reasoning. The newly achieved state-of-the-art performance on two publicly available benchmark datasets, together with further visual analysis, demonstrate the superiority of TOT in capturing implicit cross-modal alignment.
Abstract（参考訳）: ミームなどの有害なコンテンツを特定することを目的としたマルチモーダルヘイト検出は、インターネット環境全体の構築に不可欠である。これまでの研究は、露骨な憎しみの発言を検出するための啓蒙的な探求をしてきた。しかし、これらのアプローチのほとんどは暗黙の害の分析を無視しており、明示的なテキストマーカーや人口統計学的手がかりがしばしばねじれや欠落しているため、特に難しい。レバレッジド・クロスモーダル・アテンション機構は分布のモダリティギャップに悩まされ、論理的解釈性に欠ける。これらの意味的ギャップに対処するために,我々は,最適輸送計画の解としてクロスモーダル整列問題を定式化したミームシナリオにおける暗黙的危害を解くトポロジー対応最適輸送フレームワークtotを提案する。具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。カーネル埋め込みは、カーネルヒルベルト空間(英語版)(rkhs)を再現する非線形変換能力を提供する。さらに,2部グラフの経路推論を行うために,アライメント表現に基づくトポロジ情報を知覚する。公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスと、さらなるビジュアル分析は、暗黙的なクロスモーダルアライメントのキャプチャにおけるTOTの優位性を実証している。

関連論文リスト

VTFusion: A Vision-Text Multimodal Fusion Network for Few-Shot Anomaly Detection [24.88767599022225]
Few-Shot Anomaly Detection (FSAD) は、希少な正規参照を用いて不規則を識別するための重要なパラダイムとして登場した。本研究では,FSADに適した視覚テキスト多モード融合フレームワークであるVTFusionを提案する。
論文参考訳（メタデータ） (2026-01-23T00:30:24Z)
Subspace Alignment for Vision-Language Model Test-time Adaptation [82.83192844597593]
視覚言語モデル(VLM)は分布シフトに対して脆弱である。既存のテスト時間適応法は、自己学習のための擬似ラベルとしてゼロショット予測に依存している。両モードのセマンティック部分空間を整列させてゼロショット予測を強化するSubTTAを提案する。
論文参考訳（メタデータ） (2026-01-13T02:02:41Z)
Insight-A: Attribution-aware for Multimodal Misinformation Detection [14.02125134424451]
本稿では,マルチモーダルな誤情報検出のためのMLLMインサイトによる属性探索を行うInsight-Aを提案する。我々は、認知と推論の高度な相関をモデル化するために、クロス属性プロンプト(CAP)を考案する。また,画像キャプション(IC)を設計し,相互整合性検査の精度向上を図る。
論文参考訳（メタデータ） (2025-11-17T02:33:36Z)
Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文参考訳（メタデータ） (2025-07-22T03:42:51Z)
Optimizing Cooperative Multi-Object Tracking using Graph Signal Processing [45.68287260385148]
本稿では,3次元LiDARシーンにおける物体追跡のための協調型MOTフレームワークを提案する。検出された境界ボックスによって定義される全連結グラフトポロジーを利用して、グラフラプラシアン処理最適化手法を用いる。実世界のV2V4Realデータセットを用いて、広範な評価研究が行われた。
論文参考訳（メタデータ） (2025-06-11T07:21:58Z)
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文参考訳（メタデータ） (2025-01-12T04:30:13Z)
Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。提案手法は計算効率が高く,効果的に解ける。
論文参考訳（メタデータ） (2024-11-12T09:57:53Z)
GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文参考訳（メタデータ） (2024-05-21T03:33:07Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文参考訳（メタデータ） (2023-11-22T09:18:49Z)
Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文参考訳（メタデータ） (2023-11-03T03:18:40Z)
Improving Vision Anomaly Detection with the Guidance of Language Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文参考訳（メタデータ） (2023-10-04T13:44:56Z)
Cross-Modal Translation and Alignment for Survival Analysis [7.657906359372181]
本研究は,本質的な相互モーダル相関と伝達電位補間情報について検討する枠組みを提案する。 5つの公開TCGAデータセットに対する実験により、提案したフレームワークが最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2023-09-22T13:29:14Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Multimodal Trajectory Prediction via Topological Invariance for Navigation at Uncontrolled Intersections [45.508973373913946]
道路交差点において,信号機や信号機を使わずに複数の非通信的合理的エージェント間の分散ナビゲーションに着目した。我々の重要な洞察は、交差点の幾何学的構造と、効率的に動くエージェントのインセンティブが衝突を避け(合理性)、起こりうる行動の空間を減少させるということである。マルチエージェント交差点シーンにおける高次モードの軌道表現を再構成するデータ駆動型軌道予測機構であるMTPを設計する。
論文参考訳（メタデータ） (2020-11-08T02:56:42Z)
Representation Learning via Adversarially-Contrastive Optimal Transport [40.52344027750609]
我々はその問題をコントラスト表現学習の文脈に設定した。本稿では,ワッサースタイン GAN と新しい分類器を結合するフレームワークを提案する。我々の結果は、挑戦的なベースラインに対する競争力を示す。
論文参考訳（メタデータ） (2020-07-11T19:46:18Z)
MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2020-05-07T15:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。