論文の概要: Utility-Aware Multimodal Contrastive Learning for Product Image Generation
- arxiv url: http://arxiv.org/abs/2605.28733v1
- Date: Wed, 27 May 2026 16:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.230071
- Title: Utility-Aware Multimodal Contrastive Learning for Product Image Generation
- Title(参考訳): 製品画像生成のための実用性を考慮したマルチモーダルコントラスト学習
- Authors: Xiaohang Feng, Yiling Xie,
- Abstract要約: 製品イメージはオンラインマーケットプレースにおける消費者の意思決定に強く影響を与えます。
本稿では,消費者需要を新たなユーティリティ・アウェア・InfoNCE損失に組み込むフレームワークを提案する。
我々のフレームワークは、新しい生成モデルに柔軟に組み込んで直接の商業利用を改善することができる。
- 参考スコア(独自算出の注目度): 3.9962751777898955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Product images strongly influence consumer decision-making in online marketplaces. Empowered by multimodal contrastive learning, generative AI can output images that closely align with text prompts. Yet existing generative AI models do not directly optimize marketplace performance. This is a critical gap, since semantic alignment alone does not guarantee that an image will sell. To address this limitation, we propose a \textit{utility-aware multimodal contrastive learning} framework that incorporates consumer demand into a novel Utility-Aware InfoNCE loss. Optimizing this utility-aware objective guides generation toward images that are both semantically coherent and demand-enhancing. This effect arises directly from a shift in the learned image-text representation space toward demand-driven visual cues, which we also validate through the theoretical bound of the proposed objective. In downstream applications on Amazon and Airbnb, product images generated and edited by our method outperform state-of-the-art models in increasing demand and preserving fidelity, while maintaining text-image consistency. Notably, our utility-aware framework preserves inverse U-shaped demand patterns for attributes such as aesthetics and uniqueness, improving demand-based performance while preserving fidelity and semantic consistency. Human-subject experiments further validate its commercial effectiveness. As generative AI technology continues to evolve, our utility-aware component can be flexibly embedded into emerging generative models to improve direct commercial use.
- Abstract(参考訳): 製品イメージはオンラインマーケットプレースにおける消費者の意思決定に強く影響を与えます。
マルチモーダルなコントラスト学習を駆使した生成AIは、テキストプロンプトと密接に一致した画像を出力することができる。
しかし、既存の生成AIモデルは、マーケットプレースのパフォーマンスを直接最適化しない。
これは、セマンティックアライメントだけではイメージが販売されることを保証しないため、重要なギャップである。
この制限に対処するために、消費者の需要を新しいUtility-Aware InfoNCE損失に組み込んだ、textit{utility-aware multimodal contrastive learning}フレームワークを提案する。
このユーティリティを意識したオブジェクトの最適化は、セマンティックコヒーレントかつ需要拡大の両方のイメージに対して生成を導く。
この効果は、学習した画像テキスト表現空間の需要駆動型ビジュアルキューへのシフトから直接生じ、提案した目的の理論的境界を通じて検証する。
AmazonやAirbnbのダウンストリームアプリケーションでは、当社の方法によって生成、編集された製品イメージは、需要の増加と忠実性の維持において最先端のモデルよりも優れ、テキストイメージの一貫性を維持しています。
特に,本フレームワークは,審美性や独特性などの属性に対して,U字型の逆需要パターンを保存し,整合性とセマンティック一貫性を維持しつつ,需要ベースの性能を向上させる。
人体実験は商業的効果をさらに検証する。
生成AI技術が進化を続けるにつれて、私たちのユーティリティ対応コンポーネントは、新しい生成モデルに柔軟に組み込んで、直接の商用利用を改善することができます。
関連論文リスト
- Large AI Model-Enabled Generative Semantic Communications for Image Transmission [37.127618237197495]
本稿では,キー領域と非キー領域に分割することで,セマンティックな粒度を改良する,革新的な生成意味コミュニケーションシステムを提案する。
重要な視覚情報を含むキー領域は、画像指向セマンティックエンコーダを用いて処理される。
非キー領域は画像からテキストへのモデリング手法によって効率よく圧縮される。
論文 参考訳(メタデータ) (2025-09-24T07:46:38Z) - RefAdGen: High-Fidelity Advertising Image Generation [2.38180456064897]
RefAdGenは、分離された設計によって高い忠実性を達成する世代フレームワークである。
我々はRefAdGenが最先端のパフォーマンスを達成し、高忠実さと目立った視覚的結果を維持することで、高精細度を保ちながら、実世界と実世界の両方に挑戦し、高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度な画像化を実現していることを示す。
論文 参考訳(メタデータ) (2025-08-12T18:25:31Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Generative AI for Vision: A Comprehensive Study of Frameworks and Applications [0.0]
生成AIは画像合成を変換し、高品質で多様性があり、フォトリアリスティックなビジュアルを作成することができる。
本研究は,入力の性質に基づく画像生成技術の構造的分類を提案する。
DALL-E、ControlNet、DeepSeek Janus-Proといった主要なフレームワークを強調し、計算コスト、データバイアス、ユーザ意図とのアウトプットアライメントといった課題に対処します。
論文 参考訳(メタデータ) (2025-01-29T22:42:05Z) - Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending [54.26862913139299]
我々は、ウォーターマークインフォームドブレンディング(TEAWIB)による潜伏拡散モデルに対する効果的なユーザ属性に向けた新しいフレームワークを提案する。
TEAWIBは、ユーザ固有の透かしを生成モデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。
TEAWIBの有効性を検証し、知覚的品質と帰属精度で最先端の性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-17T07:52:09Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。