論文の概要: MATCHED: Multimodal Authorship-Attribution To Combat Human Trafficking in Escort-Advertisement Data
- arxiv url: http://arxiv.org/abs/2412.13794v1
- Date: Wed, 18 Dec 2024 12:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:50:06.535040
- Title: MATCHED: Multimodal Authorship-Attribution To Combat Human Trafficking in Escort-Advertisement Data
- Title(参考訳): MATCHED:マルチモーダルなオーサリング-Escortのデータによる人身売買への貢献
- Authors: Vageesh Saxena, Benjamin Bashpole, Gijs Van Dijck, Gerasimos Spanakis,
- Abstract要約: 本稿では,27,619のユニークなテキスト記述と55,115のユニークな画像からなるマルチモーダルデータセットであるMATCHEDを紹介する。
本研究は,ベンダー識別および検証タスクにおいて,テキストのみ,ビジョンのみ,マルチモーダルベースラインを広範囲にベンチマークする。
以上の結果から,マルチモーダルAA (MAA) による人身売買対策の可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.762212551172392
- License:
- Abstract: Human trafficking (HT) remains a critical issue, with traffickers increasingly leveraging online escort advertisements (ads) to advertise victims anonymously. Existing detection methods, including Authorship Attribution (AA), often center on text-based analyses and neglect the multimodal nature of online escort ads, which typically pair text with images. To address this gap, we introduce MATCHED, a multimodal dataset of 27,619 unique text descriptions and 55,115 unique images collected from the Backpage escort platform across seven U.S. cities in four geographical regions. Our study extensively benchmarks text-only, vision-only, and multimodal baselines for vendor identification and verification tasks, employing multitask (joint) training objectives that achieve superior classification and retrieval performance on in-distribution and out-of-distribution (OOD) datasets. Integrating multimodal features further enhances this performance, capturing complementary patterns across text and images. While text remains the dominant modality, visual data adds stylistic cues that enrich model performance. Moreover, text-image alignment strategies like CLIP and BLIP2 struggle due to low semantic overlap and vague connections between the modalities of escort ads, with end-to-end multimodal training proving more robust. Our findings emphasize the potential of multimodal AA (MAA) to combat HT, providing LEAs with robust tools to link ads and disrupt trafficking networks.
- Abstract(参考訳): 人身売買(HT)は依然として重要な問題であり、オンラインのエスコート広告(ads)を利用して被害者を匿名で宣伝している。
Authorship Attribution (AA) を含む既存の検出方法は、しばしばテキストベースの分析を中心とし、通常テキストと画像のペアリングを行うオンライン護衛広告のマルチモーダルな性質を無視する。
このギャップに対処するために、MATCHEDは27,619のユニークなテキスト記述と、バックページの護衛プラットフォームから収集された55,115のユニークな画像からなるマルチモーダルデータセットである。
本研究は,ベンダー識別および検証タスクのためのテキストのみ,視覚のみ,マルチモーダルベースラインを広範囲にベンチマークし,配信内および配布外データセットの分類および検索性能に優れたマルチタスク(ジョイント)トレーニング目標を適用した。
マルチモーダル機能の統合により、このパフォーマンスが向上し、テキストと画像の相補的なパターンがキャプチャされる。
テキストは依然として支配的なモダリティであるが、視覚データには、モデルパフォーマンスを豊かにするスタイリスティックな手がかりが加えられている。
さらに、CLIPやBLIP2のようなテキストイメージアライメント戦略は、セマンティックなオーバーラップの少ないことと、エスコート広告のモダリティ間のあいまいな接続が原因で、エンドツーエンドのマルチモーダルトレーニングがより堅牢であることが証明されている。
我々の研究は、マルチモーダルAA(MAA)がHTと戦う可能性を強調し、LEAに広告のリンクとトラフィックネットワークの破壊のための堅牢なツールを提供する。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary Tasks [38.943074586111564]
微調整型マルチモーダルモデルにおいて,主課題と協調して2つの補助的損失を用いることの有効性について検討した。
第一に、画像テキストコントラスト(ITC)は、投稿内の画像テキスト表現間の距離を最小化するように設計されている。
第2に、画像テキストマッチング(ITM)は、画像とテキスト間の意味的関係を理解するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-09-14T15:30:59Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。