Fugu-MT 論文翻訳(概要): Getting it Right: Improving Spatial Consistency in Text-to-Image Models

論文の概要: Getting it Right: Improving Spatial Consistency in Text-to-Image Models

arxiv url: http://arxiv.org/abs/2404.01197v1
Date: Mon, 1 Apr 2024 15:55:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 21:55:47.494222
Title: Getting it Right: Improving Spatial Consistency in Text-to-Image Models
Title（参考訳）: テキスト・ツー・イメージモデルにおける空間整合性の改善
Authors: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang,
Abstract要約: 現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。 4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。空間スコア0.2133のT2I-CompBench上で500枚の画像を微調整することで,最先端のT2I-CompBenchを実現する。
参考スコア（独自算出の注目度）: 103.52640413616436
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.
Abstract（参考訳）: 現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。本稿では,この制限を包括的に調査するとともに,最先端の性能を実現するためのデータセットや手法を開発する。まず、このボトルネックを軽減するために、4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。 SPRIGHTは3倍の評価と分析のパイプラインを通じて,空間的関係の取得において既存のデータセットを大幅に改善することがわかった。有効性を示すために、SPRIGHTの0.25%しか利用せず、空間的精度の高い画像を生成するのに22%改善し、FIDとCMMDのスコアも改善した。第2に,多数の物体を含む画像に対するトレーニングが空間的整合性を大幅に向上させることがわかった。特に,T2I-CompBenchの<500画像の微調整により,空間スコア0.2133で最先端のT2I-CompBenchが得られる。最後に,テキスト・ツー・イメージ・モデルにおける空間的整合性に影響を与える因子の理解を深めると考えられる複数の研究結果について報告する。この分野のさらなる研究を促進するために、データセットとモデルを公開しています。

関連論文リスト

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models [23.6849873930169]
テキスト・ツー・イメージ(T2I)モデルは高忠実度画像の生成において顕著な成功を収めているが、複雑な空間関係の処理には失敗することが多い。本稿では,T2Iモデルの空間的インテリジェンスを評価するための新しいベンチマークであるSpatialGenEvalを紹介する。
論文参考訳（メタデータ） (2026-01-28T08:15:00Z)
Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文参考訳（メタデータ） (2025-06-29T22:41:27Z)
ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文参考訳（メタデータ） (2025-04-18T15:21:37Z)
CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [13.992486106252716]
CoMPaSSは任意のT2I拡散モデルの空間的理解を高める汎用的なトレーニングフレームワークである。 CoMPaSSは空間制約指向ペアリング(SCOP)データエンジンを用いて空間関連データのあいまいさを解決する。 CoMPaSSは、キュレートされた高品質な空間先行をうまく活用するために、Token ENcoding ORdering (TENOR)モジュールを導入した。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文参考訳（メタデータ） (2024-08-05T04:51:46Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Spatial Latent Representations in Generative Adversarial Networks for Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文参考訳（メタデータ） (2023-03-25T20:01:11Z)
Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文参考訳（メタデータ） (2022-12-20T06:03:51Z)
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-07-29T01:21:54Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文参考訳（メタデータ） (2020-11-19T16:09:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。