論文の概要: Order Is Not Layout: Order-to-Space Bias in Image Generation
- arxiv url: http://arxiv.org/abs/2603.03714v1
- Date: Wed, 04 Mar 2026 04:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.18093
- Title: Order Is Not Layout: Order-to-Space Bias in Image Generation
- Title(参考訳): 画像生成における秩序と空間のバイアス
- Authors: Yongkang Zhang, Zonglin Zhao, Yuechen Zhang, Fei Ding, Pei Li, Wenxuan Wang,
- Abstract要約: 本稿では,現代画像生成モデルにおける体系的バイアスについて検討する。テキスト中のエンティティの順序は空間的レイアウトとエンティティ-ロール結合を急激に決定する。
本稿では、この現象を順序空間バイアス(OTS)と呼び、テキスト・ツー・イメージ生成と画像・画像生成の両方で発生することを示す。
- 参考スコア(独自算出の注目度): 17.426732254924264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a systematic bias in modern image generation models: the mention order of entities in text spuriously determines spatial layout and entity--role binding. We term this phenomenon Order-to-Space Bias (OTS) and show that it arises in both text-to-image and image-to-image generation, often overriding grounded cues and causing incorrect layouts or swapped assignments. To quantify OTS, we introduce OTS-Bench, which isolates order effects with paired prompts differing only in entity order and evaluates models along two dimensions: homogenization and correctness. Experiments show that Order-to-Space Bias (OTS) is widespread in modern image generation models, and provide evidence that it is primarily data-driven and manifests during the early stages of layout formation. Motivated by this insight, we show that both targeted fine-tuning and early-stage intervention strategies can substantially reduce OTS, while preserving generation quality.
- Abstract(参考訳): テキスト中のエンティティの言及順序は空間的レイアウトとエンティティの結合を急激に決定する。
我々はこの現象を順序空間バイアス(OTS)と呼び、テキスト・ツー・イメージ生成と画像・画像生成の両方で発生することを示す。
OTSを定量化するために、OTS-Benchを導入し、エンティティ順序のみが異なるペアプロンプトで順序効果を分離し、同質化と正当性という2つの次元に沿ったモデルを評価する。
実験により、秩序空間バイアス(OTS)は現代の画像生成モデルに広く普及しており、主にデータ駆動であり、レイアウト形成の初期段階に現れていることを示す。
この知見に触発されて、ターゲットの微調整と早期介入の両方が、生成品質を保ちながら、OTSを大幅に削減できることを示す。
関連論文リスト
- Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。
グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。
提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-07-14T14:28:15Z) - Conditional Panoramic Image Generation via Masked Autoregressive Modeling [35.624070746282186]
本稿では,これらの課題に対処するために,マスク付き自己回帰モデルを活用した統合フレームワークパノラマ自動回帰モデル(PAR)を提案する。
既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円パディングを導入する。
実験では、テキスト・ツー・イメージ生成とパノラマ・アパインティング・タスクの競争性能を示す。
論文 参考訳(メタデータ) (2025-05-22T16:20:12Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization [5.141049647900161]
本稿では,SID(Selectively Informative Description)というテキスト記述戦略を提案する。
本研究は,クロスアテンションマップ,主観的アライメント,非対象的アライメント,テキストアライメントの分析とともに,総合的な実験結果を示す。
論文 参考訳(メタデータ) (2024-03-22T16:35:38Z) - PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。