論文の概要: FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing
- arxiv url: http://arxiv.org/abs/2509.23452v1
- Date: Sat, 27 Sep 2025 18:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.233681
- Title: FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing
- Title(参考訳): FoR-SALE:LLMを用いた拡散編集における参照誘導空間調整の枠組み
- Authors: Tanawan Premsri, Parisa Kordjamshidi,
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成では、カメラ以外の視点から空間記述が提供される場合、最先端モデルでさえ大きな性能差を示す。
本フレームワークは,1ラウンドの補正のみを用いて,最先端T2Iモデルの性能を最大5.3%向上させる。
- 参考スコア(独自算出の注目度): 30.060342890828043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frame of Reference (FoR) is a fundamental concept in spatial reasoning that humans utilize to comprehend and describe space. With the rapid progress in Multimodal Language models, the moment has come to integrate this long-overlooked dimension into these models. In particular, in text-to-image (T2I) generation, even state-of-the-art models exhibit a significant performance gap when spatial descriptions are provided from perspectives other than the camera. To address this limitation, we propose Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing (FoR-SALE), an extension of the Self-correcting LLM-controlled Diffusion (SLD) framework for T2I. For-Sale evaluates the alignment between a given text and an initially generated image, and refines the image based on the Frame of Reference specified in the spatial expressions. It employs vision modules to extract the spatial configuration of the image, while simultaneously mapping the spatial expression to a corresponding camera perspective. This unified perspective enables direct evaluation of alignment between language and vision. When misalignment is detected, the required editing operations are generated and applied. FoR-SALE applies novel latent-space operations to adjust the facing direction and depth of the generated images. We evaluate FoR-SALE on two benchmarks specifically designed to assess spatial understanding with FoR. Our framework improves the performance of state-of-the-art T2I models by up to 5.3% using only a single round of correction.
- Abstract(参考訳): 参照フレーム(FoR)は、人間が空間を理解し、記述するために利用する空間推論の基本的な概念である。
マルチモーダル言語モデルの急速な進歩により、この長年見過ごされてきた次元をこれらのモデルに統合する時が来た。
特に、テキスト・トゥ・イメージ(T2I)生成では、カメラ以外の視点から空間記述が提供される場合、最先端モデルでさえ大きな性能差を示す。
この制限に対処するため,T2I 用自己修正 LLM 制御拡散 (SLD) フレームワークの拡張である LLM-based Diffusion Editing (FoR-SALE) における参照誘導空間適応フレームを提案する。
For-Saleは、与えられたテキストと初期生成された画像のアライメントを評価し、空間表現で指定された参照フレームに基づいて画像を洗練する。
視覚モジュールを用いて画像の空間的構成を抽出し、同時に空間的表現を対応するカメラの視点にマッピングする。
この統合された視点は、言語と視覚のアライメントを直接評価することを可能にする。
誤修正が検出されると、必要な編集操作を生成して適用する。
FoR-SALEは、生成された画像の対向方向と深さを調整するために、新しい潜在空間演算を適用している。
FOR-SALEを2つのベンチマークで評価し,FORを用いて空間的理解を評価する。
本フレームワークは,1ラウンドの補正のみを用いて,最先端T2Iモデルの性能を最大5.3%向上させる。
関連論文リスト
- Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。
本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。
また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文 参考訳(メタデータ) (2025-06-29T22:41:27Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。