論文の概要: Keyword-Oriented Multimodal Modeling for Euphemism Identification
- arxiv url: http://arxiv.org/abs/2503.21504v1
- Date: Thu, 27 Mar 2025 13:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:55:05.939464
- Title: Keyword-Oriented Multimodal Modeling for Euphemism Identification
- Title(参考訳): キーワード指向マルチモーダルモデリングによるエフェミズム同定
- Authors: Yuxue Hu, Junsong Li, Meixuan Chen, Dongyu Su, Tongguan Wang, Ying Sha,
- Abstract要約: ソーシャルメディアの台頭は、テキスト、画像、オーディオを取り入れたマルチモーダル分析の必要性を強調している。
テキスト, 画像, 音声を含む, キーワード指向の多モーダルコーパス (KOM-Euph) を導入する。
マルチモーダル特徴アライメントと動的融合モジュールを用いたキーワード指向型マルチモーダル・エフェミズム識別法(KOM-EI)を提案する。
- 参考スコア(独自算出の注目度): 1.0744004717468878
- License:
- Abstract: Euphemism identification deciphers the true meaning of euphemisms, such as linking "weed" (euphemism) to "marijuana" (target keyword) in illicit texts, aiding content moderation and combating underground markets. While existing methods are primarily text-based, the rise of social media highlights the need for multimodal analysis, incorporating text, images, and audio. However, the lack of multimodal datasets for euphemisms limits further research. To address this, we regard euphemisms and their corresponding target keywords as keywords and first introduce a keyword-oriented multimodal corpus of euphemisms (KOM-Euph), involving three datasets (Drug, Weapon, and Sexuality), including text, images, and speech. We further propose a keyword-oriented multimodal euphemism identification method (KOM-EI), which uses cross-modal feature alignment and dynamic fusion modules to explicitly utilize the visual and audio features of the keywords for efficient euphemism identification. Extensive experiments demonstrate that KOM-EI outperforms state-of-the-art models and large language models, and show the importance of our multimodal datasets.
- Abstract(参考訳): ユーフェミズムの識別は、不正なテキストで「雑草」と「マリファナ」を結びつけることや、コンテンツのモデレーションを支援し、地下市場と戦うことなど、ユーフェミズムの真の意味を解読する。
既存の手法は主にテキストベースであるが、ソーシャルメディアの台頭は、テキスト、画像、オーディオを取り入れたマルチモーダル分析の必要性を強調している。
しかし、エウヘミズムのためのマルチモーダルデータセットの欠如はさらなる研究を制限している。
そこで我々は,euphemismsとその対応するターゲットキーワードをキーワードとみなし,まず,テキスト,画像,音声を含む3つのデータセット(Drug,Weapon,Sexuality)を含むキーワード指向のeuphemisms(KOM-Euph)のマルチモーダルコーパスを導入する。
さらに,マルチモーダルな特徴アライメントと動的融合モジュールを用いて,キーワードの視覚的特徴と音声的特徴を効果的に活用する,キーワード指向のマルチモーダル・エフェミズム識別法 (KOM-EI) を提案する。
大規模な実験により、KOM-EIは最先端のモデルや大規模言語モデルよりも優れており、我々のマルチモーダルデータセットの重要性を示している。
関連論文リスト
- TriMod Fusion for Multimodal Named Entity Recognition in Social Media [0.0]
本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。
我々は,既存の最先端手法よりもアプローチの優位性を実証し,精度,リコール,F1スコアの大幅な向上を実現した。
論文 参考訳(メタデータ) (2025-01-14T17:29:41Z) - LLM-TAKE: Theme Aware Keyword Extraction Using Large Language Models [10.640773460677542]
項目のテキストメタデータから推測される項目のキーワードを生成するために,Large Language Models (LLMs) を用いて検討する。
我々のモデリングフレームワークは、非情報的またはセンシティブなキーワードを出力することを避けて結果を微粒化するいくつかの段階を含む。
本稿では,Eコマース環境における商品の抽出的および抽象的テーマを生成するための2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-01T20:13:08Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment
Analysis with ASR Errors [29.182545479819716]
マルチモーダル感情分析は注目を集め、多くのモデルが提案されている。
しかし,現状のモデルの性能は実世界での展開によって急激に低下する。
主な理由は,実世界のアプリケーションが自動音声認識(ASR)モデルによってのみテキスト出力にアクセスできるためである。
誤感情語を動的に洗練できる感傷語認識多モーダル改善モデル(SWRM)を提案する。
論文 参考訳(メタデータ) (2022-03-01T06:33:19Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。