論文の概要: From Perception to Punchline: Empowering VLM with the Art of In-the-wild Meme
- arxiv url: http://arxiv.org/abs/2512.24555v1
- Date: Wed, 31 Dec 2025 01:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.528071
- Title: From Perception to Punchline: Empowering VLM with the Art of In-the-wild Meme
- Title(参考訳): パーセプションからパンチラインへ--イン・ザ・ワイルド・ミームによるVLMの強化
- Authors: Xueyan Li, Yingyi Xue, Mengjie Jiang, Qingzi Zhu, Yazhe Niu,
- Abstract要約: HUMORは,階層的推論を通じてミームを誘導し,グループ的な人間の嗜好と整合させる新しいフレームワークである。
主観的ユーモアを捉えるために、同じテンプレートを共有するミームのグループ内で機能するペアワイズ報酬モデルを訓練する。
本研究は,オープンエンド・ヒューマンアライメント型マルチモーダル生成のための一般的なトレーニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 5.462301274468853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating humorous memes is a challenging multimodal task that moves beyond direct image-to-caption supervision. It requires a nuanced reasoning over visual content, contextual cues, and subjective humor. To bridge this gap between visual perception and humorous punchline creation, we propose HUMOR}, a novel framework that guides VLMs through hierarchical reasoning and aligns them with group-wise human preferences. First, HUMOR employs a hierarchical, multi-path Chain-of-Thought (CoT): the model begins by identifying a template-level intent, then explores diverse reasoning paths under different contexts, and finally anchors onto a high-quality, context-specific path. This CoT supervision, which traces back from ground-truth captions, enhances reasoning diversity. We further analyze that this multi-path exploration with anchoring maintains a high expected humor quality, under the practical condition that high-quality paths retain significant probability mass. Second, to capture subjective humor, we train a pairwise reward model that operates within groups of memes sharing the same template. Following established theory, this approach ensures a consistent and robust proxy for human preference, even with subjective and noisy labels. The reward model then enables a group-wise reinforcement learning optimization, guaranteeing providing a theoretical guarantee for monotonic improvement within the trust region. Extensive experiments show that HUMOR empowers various VLMs with superior reasoning diversity, more reliable preference alignment, and higher overall meme quality. Beyond memes, our work presents a general training paradigm for open-ended, human-aligned multimodal generation, where success is guided by comparative judgment within coherent output group.
- Abstract(参考訳): ユーモラスミームの生成は、直接のイメージ・ツー・キャプションの監督を超えて、困難なマルチモーダルタスクである。
視覚的内容、文脈的手がかり、主観的ユーモアに対する微妙な推論が必要である。
視覚知覚とユーモラスなパンチライン生成のギャップを埋めるために,階層的推論を通じてVLMを誘導し,グループ的人間の嗜好と整合させる新しいフレームワークであるHUMORを提案する。
まず、HUMORは階層的でマルチパスのChain-of-Thought(CoT)を採用しています。
このCoTの監督は、地味なキャプションから遡り、推論の多様性を高めます。
さらに,このアンカーを用いたマルチパス探索は,高品質パスが大きな確率質量を保持するという現実的な条件の下で,高い期待されるユーモアの質を維持していることを解析した。
第二に、主観的ユーモアを捉えるために、同じテンプレートを共有するミームのグループ内で機能するペアワイズ報酬モデルを訓練する。
確立された理論に従って、このアプローチは、主観的ラベルやノイズのあるラベルであっても、人間の嗜好に対する一貫性と堅牢なプロキシを保証する。
報酬モデルにより、グループワイド強化学習の最適化が可能となり、信頼領域内での単調改善の理論的保証が保証される。
大規模な実験により、HUMORはより優れた推論の多様性、より信頼性の高い選好アライメント、全体的なミーム品質を持つ様々なVLMに権限を与えることが示された。
ミーム以外にも、オープンエンドで人間と協調したマルチモーダル生成のための一般的なトレーニングパラダイムを示し、コヒーレントなアウトプットグループにおける比較判断によって成功が導かれる。
関連論文リスト
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator [54.562217603802075]
帰納的バイアスを伴う最終層において,自然性(美容性)とアライメントを別々に投影するSONA(Sum of Naturalness and Alignment)を導入する。
クラス条件生成タスクの実験により、SONAは最先端の手法に比べて優れたサンプル品質と条件アライメントを達成することが示された。
論文 参考訳(メタデータ) (2025-10-06T08:26:06Z) - MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning [28.841076643572933]
マルチオブジェクト画像生成は、ユーザが提供する対象を1つの画像で合成することを目的としている。
既存の手法は、単純な再構築に基づく目的への依存によって制限される。
提案するMultiCrafterは,高忠実で嗜好に整合した生成を実現するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T06:41:43Z) - D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning - A Benchmark Dataset and Method [4.561044673225099]
オンラインミームにおけるダークユーモアは、暗黙の、敏感で、文化的に文脈的な手がかりに依存しているため、ユニークな課題を提起する。
ダークユーモア、ターゲットカテゴリー(性、メンタルヘルス、暴力、人種、障害など)、および3レベルの強度評価のための4,379のミームを新たに導入した。
本稿では,まず,大規模視覚言語モデルを用いて,各ミームの構造的説明を生成する推論拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-08T14:55:16Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。