Fugu-MT 論文翻訳(概要): Norm-guided latent space exploration for text-to-image generation

論文の概要: Norm-guided latent space exploration for text-to-image generation

arxiv url: http://arxiv.org/abs/2306.08687v1
Date: Wed, 14 Jun 2023 18:12:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 17:40:24.532725
Title: Norm-guided latent space exploration for text-to-image generation
Title（参考訳）: テキスト・画像生成のためのノルム誘導潜時空間探索
Authors: Dvir Samuel, Rami Ben-Ari, Nir Darshan, Haggai Maron, Gal Chechik
Abstract要約: 現在の訓練手順では、拡散モデルはノルム値の幅が狭い入力に偏っている。本稿では,現行のトレーニング手法が,標準値の狭い入力に対して拡散モデルを偏在させることを観察する。我々は、この計量を近似するための単純だが効率的なアルゴリズムを記述し、それを用いて、潜在シード空間におけるセントロイドをさらに定義する。
参考スコア（独自算出の注目度）: 38.74956503323431
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image diffusion models show great potential in synthesizing a large variety of concepts in new compositions and scenarios. However, their latent seed space is still not well understood and has been shown to have an impact in generating new and rare concepts. Specifically, simple operations like interpolation and centroid finding work poorly with the standard Euclidean and spherical metrics in the latent space. This paper makes the observation that current training procedures make diffusion models biased toward inputs with a narrow range of norm values. This has strong implications for methods that rely on seed manipulation for image generation that can be further applied to few-shot and long-tail learning tasks. To address this issue, we propose a novel method for interpolating between two seeds and demonstrate that it defines a new non-Euclidean metric that takes into account a norm-based prior on seeds. We describe a simple yet efficient algorithm for approximating this metric and use it to further define centroids in the latent seed space. We show that our new interpolation and centroid evaluation techniques significantly enhance the generation of rare concept images. This further leads to state-of-the-art performance on few-shot and long-tail benchmarks, improving prior approach in terms of generation speed, image quality, and semantic content.
Abstract（参考訳）: テキストから画像への拡散モデルは、新しい構成やシナリオにおいて様々な概念を合成する大きな可能性を示している。しかし、その潜在的な種空間はまだよく分かっておらず、新しい希少な概念の生成に影響を及ぼすことが示されている。具体的には、補間やセントロイド探索のような単純な操作は、潜在空間の標準ユークリッド測度や球面測度ではうまく機能しない。本稿では,現行のトレーニング手法が,標準値の狭い入力に対して拡散モデルを偏在させることを観察する。これは、画像生成のシード操作に依存する手法に強く影響し、少数ショットおよび長期学習タスクにさらに適用することができる。この問題に対処するために, 2つの種子間を補間する新しい方法を提案し, 種子に先行するノルムを考慮した新しい非ユークリッド計量を定義することを実証する。我々は,この計量を近似する単純かつ効率的なアルゴリズムを記述し,それを用いて潜在種空間におけるセントロイドをさらに定義する。我々は,新たな補間・遠心評価手法により,レアコンセプト画像の生成が著しく向上することを示す。これにより、少数ショットとロングテールのベンチマークにおける最先端のパフォーマンスが向上し、生成速度、画質、セマンティックコンテンツといった面で以前のアプローチが改善される。

関連論文リスト

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。複雑なプロンプトを最小の意味単位に分解する。その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-11-25T06:24:25Z)
Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy [23.573364375818553]
本研究は,現在の自己回帰画像生成モデルにおけるサンプリング問題を再検討する。画像トークンは、テキストトークンとは異なり、低い情報密度と一様でない空間分布を示す。本稿では,高速な合成速度で自己回帰生成品質を向上させるエントロピーインフォームデコード戦略を提案する。
論文参考訳（メタデータ） (2025-10-10T05:26:11Z)
Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文参考訳（メタデータ） (2025-10-04T13:51:32Z)
Towards Consistent Long-Term Pose Generation [0.0]
最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
論文参考訳（メタデータ） (2025-07-24T12:57:22Z)
GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion [33.925249998725896]
赤外線および可視光融合のためのグラスマン多様体に基づく新しいアテンション機構を提案する。提案手法はグラスマン多様体上の射影制約を通した低ランク部分空間写像を構成する。これにより、特徴を高周波詳細(局所低ランク)と低周波数意味論(グローバル低ランク)に分離せざるを得ない。
論文参考訳（メタデータ） (2025-06-17T10:32:05Z)
From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文参考訳（メタデータ） (2025-04-19T13:40:46Z)
Enhanced Multi-Scale Cross-Attention for Person Image Generation [140.90068397518655]
課題のある人物画像生成タスクに対して,新たにGAN(cross-attention-based generative adversarial network)を提案する。クロスアテンション(Cross-attention)は、異なるモードの2つの特徴写像間で注意/相関行列を計算する、新しく直感的なマルチモーダル融合法である。異なる段階における外観・形状特徴を効果的に融合させるために, 密結合型コアテンションモジュールを新たに導入する。
論文参考訳（メタデータ） (2025-01-15T16:08:25Z)
Test-time Controllable Image Generation by Explicit Spatial Constraint Enforcement [0.0]
本研究では,自然文のプロンプトと複雑な条件を考慮したテスト時間制御可能な生成手法を提案する。具体的には,空間的条件を意味的条件と幾何学的条件に分離し,画像生成過程においてその一貫性を個別に強制する。
論文参考訳（メタデータ） (2025-01-02T17:26:25Z)
Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文参考訳（メタデータ） (2024-07-18T15:48:07Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文参考訳（メタデータ） (2023-09-08T04:10:01Z)
Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文参考訳（メタデータ） (2023-07-19T16:42:52Z)
Fine-grained Semantics-aware Representation Enhancement for Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2021-08-19T17:50:51Z)
Pixel-Pair Occlusion Relationship Map(P2ORM): Formulation, Inference & Application [20.63938300312815]
2次元画像における幾何学的閉塞に関する概念(意味論を無視する)を定式化する。本稿では, 画素対閉塞関係を用いて, 閉塞境界と閉塞方向の両方を統一的に定式化することを提案する。各種データセットの実験により,本手法が既存の手法よりも優れていることが示された。また,最新のモノクル深度推定法の性能を一貫して向上する新しい深度マップの改良手法を提案する。
論文参考訳（メタデータ） (2020-07-23T15:52:09Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。