論文の概要: TIP and Polish: Text-Image-Prototype Guided Multi-Modal Generation via Commonality-Discrepancy Modeling and Refinement
- arxiv url: http://arxiv.org/abs/2511.21698v1
- Date: Wed, 12 Nov 2025 07:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.33669
- Title: TIP and Polish: Text-Image-Prototype Guided Multi-Modal Generation via Commonality-Discrepancy Modeling and Refinement
- Title(参考訳): TIPとポーランド:共通性-離散性モデリングとリファインメントによるテキスト・イメージ・プロトタイプ・ガイド付きマルチモーダル生成
- Authors: Zhiyong Ma, Jiahao Chen, Qingyuan Chuai, Zhengping Li,
- Abstract要約: 既存の手法は、モデム間のミスマッチに悩まされ、共通性と不一致の明確なモデリングが欠如している。
我々は、明示的な入力モデリングと包括的な最適化目的を持つフレームワーク、textbftextitTIPPoを提案する。
自動評価におけるtextbftextitTIPPoの有望な性能とLCMに基づく創造性と意味的一貫性の基準を示す実験結果を得た。
- 参考スコア(独自算出の注目度): 6.795398125733378
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal generation struggles to ensure thematic coherence and style consistency. Semantically, existing methods suffer from cross-modal mismatch and lack explicit modeling of commonality and discrepancy. Methods that rely on fine-grained training fail to balance semantic precision with writing style consistency. These shortcomings lead to suboptimal generation quality. To tackle these issues, we propose \textbf{\textit{TIPPo}}, a simple yet effective framework with explicit input modeling and comprehensive optimization objectives. It extracts the input text and images via multi-modal encoder and adapters, then measures the visual prototype. \textbf{T}extual, \textbf{I}mage, and \textbf{P}rototype signals are then fed to our proposed Dual Alignment Attention and Difference Operator modules before language model decoding. The proposed \textbf{Po}lishPPO reinforces the style consistency, while the unsupervised contrastive learning during SFT mitigates inter-sample representation collapse. Experimental results demonstrate the promising performance of \textbf{\textit{TIPPo}} in automatic evaluation and LLM-based criteria for creativity and semantic consistency.
- Abstract(参考訳): マルチモーダル生成は、セマンティックコヒーレンスとスタイル整合性を保証するために苦労する。
直感的には、既存の手法はクロスモーダルなミスマッチに悩まされ、共通性と不一致の明確なモデリングが欠如している。
きめ細かいトレーニングに依存するメソッドは、セマンティックな精度と書き込みスタイルの一貫性のバランスが取れない。
これらの欠点は、最適以下の生成品質につながる。
これらの問題に対処するために、明示的な入力モデリングと包括的な最適化目的を備えたシンプルで効果的なフレームワークである \textbf{\textit{TIPPo}} を提案する。
入力テキストとイメージをマルチモーダルエンコーダとアダプタで抽出し、視覚プロトタイプを測定する。
次に提案したデュアルアライメントアテンション(Dual Alignment Attention)および差分演算子モジュールに,言語モデル復号の前に入力する。
提案した textbf{Po}lishPPO はスタイルの一貫性を強化し、SFT における教師なしのコントラスト学習はサンプル間表現の崩壊を緩和する。
実験結果から, 自動評価およびLCMに基づく創造性とセマンティック一貫性の基準において, 有望な性能を示すことができた。
関連論文リスト
- Class-Aware Prototype Learning with Negative Contrast for Test-Time Adaptation of Vision-Language Models [48.61795272482598]
VLM(Vision-Language Models)は、大規模な画像テキスト事前学習を通じて、印象的なゼロショットの一般化を実証する。
しかし、デプロイメントディストリビューションがトレーニングディストリビューションから分岐すると、パフォーマンスが低下する可能性がある。
テスト時間適応(TTA)メソッドは、ラベルのないターゲットデータを使用してモデルを更新する。
軽量TTAフレームワークである textbfNegative textbfContrast(textbfCPL-NC) を用いた textbfClass-Aware textbfPrototype textbfL を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:38:35Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting [4.985886792128721]
本研究では, 雑音不完全, 動的入力順序順順, モダリティの欠如に対して, マルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の頑健なトレーニング手法や事前学習されたマルチモーダル基礎モデルと比較して,頑健さを著しく向上させる新しいテキスト中心の対角訓練手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:44:55Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。