論文の概要: Pinterest Canvas: Large-Scale Image Generation at Pinterest
- arxiv url: http://arxiv.org/abs/2603.06453v1
- Date: Fri, 06 Mar 2026 16:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.212331
- Title: Pinterest Canvas: Large-Scale Image Generation at Pinterest
- Title(参考訳): Pinterest Canvas:Pinterestの大規模画像生成
- Authors: Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg,
- Abstract要約: Pinterestのイメージ編集と拡張ユースケースをサポートするために構築された大規模画像生成システムであるPinterest Canvasを紹介した。
Canvasの重要なコンポーネントを説明し、データセットのキュレーション、トレーニング、推論のベストプラクティスを要約します。
オンラインA/B実験では、強化された画像がそれぞれ18.0%と12.5%のエンゲージメントリフトを受けることが示された。
- 参考スコア(独自算出の注目度): 7.587764031665647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent image generation models demonstrate a remarkable ability to handle a wide variety of image generation tasks, this flexibility makes them hard to control via prompting or simple inference adaptation alone, rendering them unsuitable for use cases with strict product requirements. In this paper, we introduce Pinterest Canvas, our large-scale image generation system built to support image editing and enhancement use cases at Pinterest. Canvas is first trained on a diverse, multimodal dataset to produce a foundational diffusion model with broad image-editing capabilities. However, rather than relying on one generic model to handle every downstream task, we instead rapidly fine-tune variants of this base model on task-specific datasets, producing specialized models for individual use cases. We describe key components of Canvas and summarize our best practices for dataset curation, training, and inference. We also showcase task-specific variants through case studies on background enhancement and aspect-ratio outpainting, highlighting how we tackle their specific product requirements. Online A/B experiments demonstrate that our enhanced images receive a significant 18.0% and 12.5% engagement lift, respectively, and comparisons with human raters further validate that our models outperform third-party models on these tasks. Finally, we showcase other Canvas variants, including multi-image scene synthesis and image-to-video generation, demonstrating that our approach can generalize to a wide variety of potential downstream tasks.
- Abstract(参考訳): 最近の画像生成モデルは、様々な画像生成タスクを処理できる顕著な能力を示しているが、この柔軟性は、プロンプトや単純な推論適応だけでは制御が難しく、厳格な製品要件を持つユースケースには適さない。
本稿では,Pinterestにおける画像編集および拡張ユースケースをサポートする大規模画像生成システムであるPinterest Canvasを紹介する。
Canvasはまず、多様なマルチモーダルデータセットに基づいてトレーニングされ、幅広い画像編集機能を備えた基礎的な拡散モデルを生成する。
しかし、ダウンストリームのすべてのタスクを処理するために、1つのジェネリックモデルに頼るのではなく、タスク固有のデータセットに基づいて、このベースモデルの高速で微調整のバリエーションを生成し、個々のユースケースのための特別なモデルを生成します。
Canvasの重要なコンポーネントを説明し、データセットのキュレーション、トレーニング、推論のベストプラクティスを要約します。
また、背景強化とアスペクト比向上のケーススタディを通じてタスク固有のバリエーションを紹介し、特定の製品要件にどのように取り組むかを強調します。
オンラインA/B実験では、強化された画像は、それぞれ18.0%と12.5%のエンゲージメントリフトを受け取り、人間のレーダとの比較により、これらのタスクにおいて、我々のモデルがサードパーティモデルより優れていることが実証された。
最後に、マルチイメージシーン合成や画像間映像生成など、Canvasの他のバリエーションを紹介し、我々のアプローチが様々な下流タスクに一般化できることを実証する。
関連論文リスト
- GMAIL: Generative Modality Alignment for generated Image Learning [51.071351994330605]
本稿では,生成画像の識別のための新しいフレームワークGMAILを提案する。
我々のフレームワークは様々な視覚言語モデルに容易に組み込むことができ、広範囲にわたる実験を通してその有効性を示す。
論文 参考訳(メタデータ) (2026-02-17T05:40:25Z) - UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。
我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。
DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image
Classification and Generation [0.0]
我々はBradley-Terry選好モデルを利用して、元のモデルを効率的に微調整する高速適応法を開発した。
このフレームワークの能力の広範な証拠は、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。
論文 参考訳(メタデータ) (2023-07-15T07:53:12Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。