論文の概要: Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification
- arxiv url: http://arxiv.org/abs/2505.11237v1
- Date: Fri, 16 May 2025 13:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.085278
- Title: Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification
- Title(参考訳): マルチモーダルメタファー同定のためのコンセプトドリフトガイドレイヤーノームチューニング
- Authors: Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li,
- Abstract要約: 本稿では,マルチモーダルなメタファ識別のための新しい,訓練効率の高いフレームワークであるtextbfConcept textbfDrift textbfGuided textbfLayerNorm textbfTuning(textbfCDGLT)を紹介する。
CDGLTはMET-Memeベンチマークの最先端性能を達成し、既存の生成手法と比較してトレーニングコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 14.958038983995008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metaphorical imagination, the ability to connect seemingly unrelated concepts, is fundamental to human cognition and communication. While understanding linguistic metaphors has advanced significantly, grasping multimodal metaphors, such as those found in internet memes, presents unique challenges due to their unconventional expressions and implied meanings. Existing methods for multimodal metaphor identification often struggle to bridge the gap between literal and figurative interpretations. Additionally, generative approaches that utilize large language models or text-to-image models, while promising, suffer from high computational costs. This paper introduces \textbf{C}oncept \textbf{D}rift \textbf{G}uided \textbf{L}ayerNorm \textbf{T}uning (\textbf{CDGLT}), a novel and training-efficient framework for multimodal metaphor identification. CDGLT incorporates two key innovations: (1) Concept Drift, a mechanism that leverages Spherical Linear Interpolation (SLERP) of cross-modal embeddings from a CLIP encoder to generate a new, divergent concept embedding. This drifted concept helps to alleviate the gap between literal features and the figurative task. (2) A prompt construction strategy, that adapts the method of feature extraction and fusion using pre-trained language models for the multimodal metaphor identification task. CDGLT achieves state-of-the-art performance on the MET-Meme benchmark while significantly reducing training costs compared to existing generative methods. Ablation studies demonstrate the effectiveness of both Concept Drift and our adapted LN Tuning approach. Our method represents a significant step towards efficient and accurate multimodal metaphor understanding. The code is available: \href{https://github.com/Qianvenh/CDGLT}{https://github.com/Qianvenh/CDGLT}.
- Abstract(参考訳): メタフォリカル・イマジネーション(メタフォリカル・イマジネーション、メタフォリカル・イマジネーション)は、一見無関係な概念を結び付ける能力であり、人間の認知とコミュニケーションの基本である。
言語メタファの理解が著しく進んでいる一方で、インターネットのミームに見られるような多モーダルなメタファの把握は、その非伝統的な表現と暗黙的な意味によって、ユニークな課題を提起している。
既存のマルチモーダルな比喩識別法は、リテラルと比喩的解釈のギャップを埋めるのにしばしば苦労する。
さらに、大きな言語モデルやテキスト・ツー・イメージモデルを利用する生成的アプローチは、有望ながら高い計算コストに悩まされる。
本稿では,マルチモーダルな比喩識別のための新奇かつ訓練効率の高いフレームワークである \textbf{C}oncept \textbf{D}rift \textbf{G}uided \textbf{L}ayerNorm \textbf{T}uning (\textbf{CDGLT})を紹介する。
これは、CLIPエンコーダからのクロスモーダルな埋め込みの球状線形補間(SLERP)を活用して、新しい分岐した概念の埋め込みを生成するメカニズムである。
このドリフトされたコンセプトは、リテラル機能と比喩的なタスクの間のギャップを軽減するのに役立ちます。
2)マルチモーダルなメタファ識別タスクのための事前学習言語モデルを用いた特徴抽出と融合の手法を適応した素早い構築戦略。
CDGLTはMET-Memeベンチマークの最先端性能を達成し、既存の生成手法と比較してトレーニングコストを大幅に削減する。
アブレーション研究は,概念ドリフトと適応型LNチューニングの両手法の有効性を示した。
本手法は,効率的かつ正確なマルチモーダルメタファー理解に向けた重要なステップである。
コードは以下の通りである。 \href{https://github.com/Qianvenh/CDGLT}{https://github.com/Qianvenh/CDGLT}。
関連論文リスト
- Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Towards Multimodal Metaphor Understanding: A Chinese Dataset and Model for Metaphor Mapping Identification [9.08615188602226]
我々は、特定のターゲットドメインとソースドメインのアノテーションを含む中国のマルチモーダルメタファー広告データセット(CM3D)を開発した。
我々は,これらのマッピングを識別するための認知過程をシミュレートする,CPMMIM (Chain-of-NLP) Prompting-based Metaphor Mapping Identification Model) を提案する。
論文 参考訳(メタデータ) (2025-01-05T04:15:03Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion [57.03116054807942]
本稿では,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。
我々は,ブラック・スコールズ・フレームワークのマルコフ力学を生かした,概念ブレンディングのための堅牢なアルゴリズムを導出する。
我々の研究は、経済的にインスパイアされた技術が、生成AIのテキストと画像の融合を促進できることを示している。
論文 参考訳(メタデータ) (2024-05-22T14:25:57Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Metaphor Generation with Conceptual Mappings [58.61307123799594]
我々は、関連する動詞を置き換えることで、リテラル表現を与えられた比喩文を生成することを目指している。
本稿では,認知領域間の概念マッピングを符号化することで生成過程を制御することを提案する。
教師なしCM-Lexモデルは,近年のディープラーニングメタファ生成システムと競合することを示す。
論文 参考訳(メタデータ) (2021-06-02T15:27:05Z) - MERMAID: Metaphor Generation with Symbolism and Discriminative Decoding [22.756157298168127]
メタファーとシンボル間の理論的に基底的な接続に基づいて,並列コーパスを自動構築する手法を提案する。
生成タスクには、並列データに微調整されたシーケンスモデルへのシーケンスの復号を導くためのメタファ判別器を組み込んだ。
課題に基づく評価では、比喩のない詩に比べて、比喩で強化された人文詩が68%の時間を好むことが示されている。
論文 参考訳(メタデータ) (2021-03-11T16:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。