論文の概要: Beyond the Literal: Decomposing Pragmatic Intent in Multimodal Meme Understanding
- arxiv url: http://arxiv.org/abs/2606.03604v1
- Date: Tue, 02 Jun 2026 13:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.014475
- Title: Beyond the Literal: Decomposing Pragmatic Intent in Multimodal Meme Understanding
- Title(参考訳): リテラルを超えて:マルチモーダル・ミーム理解におけるプラグマティック・インテントの分解
- Authors: Zhengyi Zhao, Shubo Zhang, Zezhong Wang, Luyao Ye, Huimin Wang, Hanqi Yan, Binyang Li, Kam-Fai Wong, Yulan He,
- Abstract要約: Intent Projectionは、単一のLVLMバックボーン内で2つの信号の表現、出力、目的レベルを分離するフレームワークである。
Intent Projectionは、オープンソースベースラインを一貫して上回り、プロプライエタリなモデルとのギャップを狭める。
- 参考スコア(独自算出の注目度): 37.24865823418531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When asked what a meme or sarcastic post means, Large Vision Language Models (LVLMs) tend to describe what the image shows rather than what the author is trying to communicate. Standard instruction tuning entangles a post's literal content with its pragmatic meaning, letting surface-level details contaminate the final response. We reframe meme understanding as a problem of literal-pragmatic decomposition and propose \textbf{Intent Projection}, a framework that separates the two signals at the representation, output, and objective levels within a single LVLM backbone. At the representation level, an orthogonal projection module removes dominant unimodal directions from the fused image-text representation, retaining only the pragmatic residual, while a surface-real affect classifier anchors the decoder with a discrete tag that names the polarity gap. At the output level, the model externalizes a structured reasoning chain, and at the objective level a contrastive reward explicitly penalizes answers that restate the literal description. Across six multimodal benchmarks, Intent Projection consistently outperforms open-source baselines and narrows the gap to proprietary models, with the largest gains on high-divergence posts where literal collapse is most damaging.
- Abstract(参考訳): ミームや皮肉な投稿の意味を尋ねると、LVLM(Large Vision Language Models)は、著者が通信しようとしているものではなく、画像が示すものを記述する傾向がある。
標準的なインストラクションチューニングは、ポストのリテラル内容とその実用的意味を絡み合わせることで、表面レベルの詳細が最終応答を汚染する。
我々はリテラル-プラグマティック分解の問題としてミーム理解を再編成し、単一のLVLMバックボーン内の2つの信号の表現、出力、目的レベルを分離するフレームワークである「textbf{Intent Projection}」を提案する。
表現レベルでは、直交射影モジュールは、融合した画像テキスト表現から支配的な不動方向を除去し、プラグマティック残差のみを保持する一方、表面的影響分類器は、極性ギャップを名付ける離散タグでデコーダをアンカーする。
出力レベルでは、モデルは構造化された推論チェーンを外部化し、目的レベルでは、対照的な報酬はリテラル記述を復元する答えを明示的に罰する。
6つのマルチモーダルベンチマークで、Intent Projectionは一貫してオープンソースベースラインを上回り、プロプライエタリなモデルとのギャップを狭めている。
関連論文リスト
- Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning [2.6641834518599303]
視覚言語モデル(VLM)はボンガード問題のような抽象的な視覚推論ベンチマークでは失敗することが多い。
我々は,LOGOスタイルのアクションプログラムや構造化記述に基づいて,Bongard-LOGOをシンボリック推論タスクとして再構築する。
論文 参考訳(メタデータ) (2026-04-23T07:03:48Z) - More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage [3.968258676030377]
視覚的抽象下では,高い視覚的忠実度が慣用的な構成性に干渉するか否かを検討する。
このベンチマークでは,リテラルと慣用的な読み出しのためのペア化,センスアンコールによる可視化を生成することで,高忠実度な視覚的ディテールを図形的象徴性に置き換える。
この結果から,構成理解の向上には視覚入力の図形的抽象化と,意図した意味によるアンカリング解釈と生成が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-04-19T10:00:41Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - ARGENT: Adaptive Hierarchical Image-Text Representations [12.724220731465392]
本稿では,より強力な双曲型VLMベースラインARGENT,Adaptive hieRarchical imaGe-tExt rereseNTationを導入する。
本稿では,より強力な双曲型VLMベースラインARGENT,Adaptive hieRarchical imaGe-tExt rereseNTationを提案する。
論文 参考訳(メタデータ) (2026-03-24T15:14:12Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。