論文の概要: The Mind's Eye: A Multi-Faceted Reward Framework for Guiding Visual Metaphor Generation
- arxiv url: http://arxiv.org/abs/2508.18569v1
- Date: Tue, 26 Aug 2025 00:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.63242
- Title: The Mind's Eye: A Multi-Faceted Reward Framework for Guiding Visual Metaphor Generation
- Title(参考訳): The Mind's Eye:ビジュアルメタファー生成を支援する多面的リワードフレームワーク
- Authors: Girish A. Koushik, Fatemeh Nazarieh, Katherine Birch, Shenbin Qian, Diptesh Kanojia,
- Abstract要約: 本稿では,メタファのアライメントに着目した自己評価型メタファ生成フレームワークを提案する。
画像合成のためのソースターゲット(S-T-M)マッピングにプロンプトを明示的に分解する訓練不要パイプラインを探索する。
分析の結果、S-T-Mは、短い具体例で優れたクローズドモデルを用いて、より長い、あるいはより抽象的なメタファーを支援することがわかった。
- 参考スコア(独自算出の注目度): 10.102246419876787
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual metaphor generation is a challenging task that aims to generate an image given an input text metaphor. Inherently, it needs language understanding to bind a source concept with a target concept, in a way that preserves meaning while ensuring visual coherence. We propose a self-evaluating visual metaphor generation framework that focuses on metaphor alignment. Our self-evaluation approach combines existing metrics with our newly proposed metaphor decomposition score and a meaning alignment (MA) metric. Within this setup, we explore two novel approaches: a training-free pipeline that explicitly decomposes prompts into source-target-meaning (S-T-M) mapping for image synthesis, and a complementary training-based pipeline that improves alignment using our proposed self-evaluation reward schema, without any large-scale retraining. On the held-out test set, the training-free approach surpasses strong closed baselines (GPT-4o, Imagen) on decomposition, CLIP, and MA scores, with the training-based approach close behind. We evaluate our framework output using a user-facing study, and observed that participants preferred GPT-4o overall, while our training-free pipeline led open-source methods and edged Imagen on abstract metaphors. Our analyses show S-T-M prompting helps longer or more abstract metaphors, with closed models excelling on short, concrete cases; we also observe sensitivity to sampler settings. Overall, structured prompting and lightweight RL perform metaphor alignment well under modest compute, and remaining gaps to human preference appear driven by aesthetics and sampling.
- Abstract(参考訳): 視覚メタファー生成は入力テキストメタファーが与えられた画像を生成することを目的とした課題である。
本質的には、視覚的コヒーレンスを確保しながら意味を保存する方法で、ソース概念とターゲット概念を結び付けるために言語理解が必要である。
本稿では,メタファのアライメントに着目した自己評価型メタファ生成フレームワークを提案する。
我々の自己評価アプローチは、既存のメトリクスと、新たに提案した比喩分解スコアと意味アライメント(MA)メトリックを組み合わせる。
このセットアップでは、画像合成のためにプロンプトを明示的に分解するトレーニングフリーパイプラインと、大規模なリトレーニングを行わずに提案した自己評価報酬スキーマを用いてアライメントを改善する補完的なトレーニングベースパイプラインの2つの新しいアプローチを探索する。
ホールドアウトテストセットでは、トレーニングベースのアプローチは、分解、CLIP、MAスコアに関する強力なクローズドベースライン(GPT-4o、Imagen)を超える。
筆者らは,GPT-4oを総合的に好んだが,トレーニング不要のパイプラインはオープンソース手法と,抽象メタファに基づくエッジイメージnを導いた。
分析の結果,S-T-Mはより長い抽象的なメタファーの促進に役立ち,短い具体例ではクローズドモデルに優れており,サンプル設定に対する感度も観察できることがわかった。
全体として、構造化プロンプトと軽量RLは、控えめな計算の下で、比喩的アライメントをうまく実行し、審美とサンプリングによって、人間の嗜好に対する残りのギャップが現れる。
関連論文リスト
- Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification [14.958038983995008]
本稿では,マルチモーダルなメタファ識別のための新しい,訓練効率の高いフレームワークであるtextbfConcept textbfDrift textbfGuided textbfLayerNorm textbfTuning(textbfCDGLT)を紹介する。
CDGLTはMET-Memeベンチマークの最先端性能を達成し、既存の生成手法と比較してトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-16T13:27:57Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - MetaCLUE: Towards Comprehensive Visual Metaphors Research [43.604408485890275]
本稿では,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
我々は、アノテーションに基づいて、視覚と言語における最先端モデルの包括的分析を行う。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
論文 参考訳(メタデータ) (2022-12-19T22:41:46Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Metaphor Generation with Conceptual Mappings [58.61307123799594]
我々は、関連する動詞を置き換えることで、リテラル表現を与えられた比喩文を生成することを目指している。
本稿では,認知領域間の概念マッピングを符号化することで生成過程を制御することを提案する。
教師なしCM-Lexモデルは,近年のディープラーニングメタファ生成システムと競合することを示す。
論文 参考訳(メタデータ) (2021-06-02T15:27:05Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。