論文の概要: Structured Information for Improving Spatial Relationships in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.15962v1
- Date: Fri, 19 Sep 2025 13:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.177021
- Title: Structured Information for Improving Spatial Relationships in Text-to-Image Generation
- Title(参考訳): テキスト・画像生成における空間関係改善のための構造化情報
- Authors: Sander Schildermans, Chang Tian, Ying Jiao, Marie-Francine Moens,
- Abstract要約: この作業では、自動変換とT2Iパイプラインへのシームレスな統合のために、微調整された言語モデルを使用して、構造化情報でプロンプトを強化する軽量なアプローチを導入している。
Inception Scoreで測定された画像品質を損なうことなく空間精度を大幅に向上させる実験結果が得られた。
この構造化情報は、T2I生成における空間的関係を高めるための実用的でポータブルなソリューションを提供し、現在の生成システムの鍵となる限界に対処する。
- 参考スコア(独自算出の注目度): 23.552628360388823
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image (T2I) generation has advanced rapidly, yet faithfully capturing spatial relationships described in natural language prompts remains a major challenge. Prior efforts have addressed this issue through prompt optimization, spatially grounded generation, and semantic refinement. This work introduces a lightweight approach that augments prompts with tuple-based structured information, using a fine-tuned language model for automatic conversion and seamless integration into T2I pipelines. Experimental results demonstrate substantial improvements in spatial accuracy, without compromising overall image quality as measured by Inception Score. Furthermore, the automatically generated tuples exhibit quality comparable to human-crafted tuples. This structured information provides a practical and portable solution to enhance spatial relationships in T2I generation, addressing a key limitation of current large-scale generative systems.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)の生成は急速に進んでいるが、自然言語のプロンプトで記述された空間的関係を忠実に捉えることは大きな課題である。
それまでの取り組みは、迅速な最適化、空間的に基底付けられた生成、セマンティックリファインメントを通じてこの問題に対処してきた。
この作業では、自動変換とT2Iパイプラインへのシームレスな統合のために、微調整言語モデルを使用して、タプルベースの構造化情報でプロンプトを強化する軽量なアプローチを導入している。
Inception Scoreで測定された画像の画質を損なうことなく空間精度を大幅に向上させる実験結果が得られた。
さらに、自動生成されたタプルは、人造タプルに匹敵する品質を示す。
この構造化情報は、T2I生成における空間関係を強化するための実用的でポータブルなソリューションを提供し、現在の大規模生成システムの鍵となる限界に対処する。
関連論文リスト
- ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。
生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-18T15:21:37Z) - Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis [5.869767284889891]
拡散ベースのテキスト・ツー・イメージ(T2I)モデルは高品質な画像生成に優れています。
空間コヒーレントなT2I合成のための新しいトレーニング不要なアプローチSTORMを提案する。
論文 参考訳(メタデータ) (2025-03-28T06:12:25Z) - Enhancing RWKV-based Language Models for Long-Sequence Text Generation [0.0]
本稿では、長文言語モデリングを改善するための適応時間ゲーティング機構を備えた拡張RWKVアーキテクチャを提案する。
本研究では,(1)グローバルコヒーレンスを保ちながら局所的な統語パターンを捉える位置認識畳み込みシフト演算子,(2)知識間の情報の流れを動的に制御する神経伝達情報ルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-02-21T14:18:18Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [18.89863162308386]
CoMPaSSはT2Iモデルにおける空間的理解を強化する汎用フレームワークである。
まずSCOP(Spatial Constraints-Oriented Pairing)データエンジンでデータのあいまいさに対処する。
これらの先行技術を活用するため、CoMPaSSはToken ENcoding ORdering (TENOR)モジュールも導入している。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。