論文の概要: Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models
- arxiv url: http://arxiv.org/abs/2506.23418v1
- Date: Sun, 29 Jun 2025 22:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.865583
- Title: Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models
- Title(参考訳): テキスト・ツー・イメージモデルにおける空間的関係アライメントの確率論的視点
- Authors: Parham Rezaei, Arash Marioriyad, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban,
- Abstract要約: 構成生成における主要な問題は、空間的関係の不整合である。
本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。
また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
- 参考スコア(独自算出の注目度): 3.5999252362400993
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the ability of text-to-image models to generate high-quality, realistic, and diverse images, they face challenges in compositional generation, often struggling to accurately represent details specified in the input prompt. A prevalent issue in compositional generation is the misalignment of spatial relationships, as models often fail to faithfully generate images that reflect the spatial configurations specified between objects in the input prompts. To address this challenge, we propose a novel probabilistic framework for modeling the relative spatial positioning of objects in a scene, leveraging the concept of Probability of Superiority (PoS). Building on this insight, we make two key contributions. First, we introduce a novel evaluation metric, PoS-based Evaluation (PSE), designed to assess the alignment of 2D and 3D spatial relationships between text and image, with improved adherence to human judgment. Second, we propose PoS-based Generation (PSG), an inference-time method that improves the alignment of 2D and 3D spatial relationships in T2I models without requiring fine-tuning. PSG employs a Part-of-Speech PoS-based reward function that can be utilized in two distinct ways: (1) as a gradient-based guidance mechanism applied to the cross-attention maps during the denoising steps, or (2) as a search-based strategy that evaluates a set of initial noise vectors to select the best one. Extensive experiments demonstrate that the PSE metric exhibits stronger alignment with human judgment compared to traditional center-based metrics, providing a more nuanced and reliable measure of complex spatial relationship accuracy in text-image alignment. Furthermore, PSG significantly enhances the ability of text-to-image models to generate images with specified spatial configurations, outperforming state-of-the-art methods across multiple evaluation metrics and benchmarks.
- Abstract(参考訳): テキスト・ツー・イメージのモデルが高品質でリアルで多様な画像を生成する能力にもかかわらず、彼らは合成生成の課題に直面し、しばしば入力プロンプトで特定された詳細を正確に表現するのに苦労する。
合成生成における一般的な問題は、入力プロンプト内のオブジェクト間で指定された空間的構成を反映するイメージを忠実に生成できないため、空間的関係の不整合である。
この課題に対処するため,我々は,物体の相対的空間位置をモデル化するための新しい確率的枠組みを提案し,PoS(Probability of Superiority)の概念を活用している。
この洞察に基づいて、2つの重要なコントリビューションを行います。
まず,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標PoS-based Evaluation (PSE)を導入する。
第2に,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推論時間法であるPoS-based Generation (PSG)を提案する。
PSGでは,(1)認知段階における横断注意マップに適用される勾配に基づく誘導機構として,(2)初期ノイズベクトルのセットを評価し,最適なノイズベクトルを選択するための探索的戦略として,2つの異なる方法で利用することができる。
大規模な実験により、PSE測定は従来の中心的指標と比較して人間の判断と強く一致していることが示され、テキスト画像アライメントにおける複雑な空間関係の精度をより微妙で信頼性の高い測定結果となった。
さらに、PSGは、特定の空間構成を持つ画像を生成するためのテキスト・ツー・イメージ・モデルの能力を著しく向上させ、複数の評価指標とベンチマークで最先端の手法より優れている。
関連論文リスト
- ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。
提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。
本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-05-30T00:13:36Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。