論文の概要: Taming the Tri-Space Tension: ARC-Guided Hallucination Modeling and Control for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.04946v1
- Date: Mon, 07 Jul 2025 12:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.419578
- Title: Taming the Tri-Space Tension: ARC-Guided Hallucination Modeling and Control for Text-to-Image Generation
- Title(参考訳): 三空間張力のモデリング:ARC誘導幻覚モデリングとテキスト・画像生成のための制御
- Authors: Jianjiang Yang, Ziyan Huang,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルでは持続的な「幻覚」が示される
本稿では,幻覚を潜在アライメント空間内の軌跡ドリフトとして再解釈する認知的な視点を提案する。
我々は,潜在空間で完全に動作する軽量コントローラであるTensionModulator (TM-ARC) を開発した。
- 参考スコア(独自算出の注目度): 0.060467329188882764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable progress in image quality and prompt fidelity, text-to-image (T2I) diffusion models continue to exhibit persistent "hallucinations", where generated content subtly or significantly diverges from the intended prompt semantics. While often regarded as unpredictable artifacts, we argue that these failures reflect deeper, structured misalignments within the generative process. In this work, we propose a cognitively inspired perspective that reinterprets hallucinations as trajectory drift within a latent alignment space. Empirical observations reveal that generation unfolds within a multiaxial cognitive tension field, where the model must continuously negotiate competing demands across three key critical axes: semantic coherence, structural alignment, and knowledge grounding. We then formalize this three-axis space as the \textbf{Hallucination Tri-Space} and introduce the Alignment Risk Code (ARC): a dynamic vector representation that quantifies real-time alignment tension during generation. The magnitude of ARC captures overall misalignment, its direction identifies the dominant failure axis, and its imbalance reflects tension asymmetry. Based on this formulation, we develop the TensionModulator (TM-ARC): a lightweight controller that operates entirely in latent space. TM-ARC monitors ARC signals and applies targeted, axis-specific interventions during the sampling process. Extensive experiments on standard T2I benchmarks demonstrate that our approach significantly reduces hallucination without compromising image quality or diversity. This framework offers a unified and interpretable approach for understanding and mitigating generative failures in diffusion-based T2I systems.
- Abstract(参考訳): 画像の品質と迅速な忠実さの顕著な進歩にもかかわらず、テキスト・ツー・イメージ(T2I)拡散モデルは引き続き持続的な「幻覚」を示し、そこで生成されたコンテンツは意図されたプロンプト・セマンティクスと微妙にあるいは著しく異なる。
予測不可能な人工物と見なされることが多いが、これらの失敗は生成過程におけるより深く、構造化されたミスアライメントを反映していると我々は主張する。
本研究では,幻覚を潜在アライメント空間内の軌跡ドリフトとして再解釈する認知的な視点を提案する。
経験的観察により、生成は多軸認知的緊張領域内で展開され、モデルが3つの重要な軸(セマンティックコヒーレンス、構造的アライメント、知識基盤)で競合する要求を継続的に交渉しなければならないことが明らかとなった。
次に、この3軸空間を「textbf{Hallucination Tri-Space}」として定式化し、生成時のリアルタイムアライメントテンションを定量化する動的ベクトル表現であるアライメントリスクコード(ARC)を導入する。
ARCの大きさは全体の不整合を捉え、その方向は支配的な故障軸を識別し、その不均衡は緊張非対称性を反映する。
この定式化に基づいて,潜在空間で完全に動作する軽量コントローラであるTensionModulator (TM-ARC) を開発した。
TM-ARCはARC信号を監視し、サンプリングプロセス中に標的となる軸特異的な介入を適用する。
標準T2Iベンチマークによる大規模な実験により,画像品質や多様性を損なうことなく幻覚を著しく低減できることが示された。
このフレームワークは拡散ベースのT2Iシステムにおける生成障害を理解し緩和するための統一的で解釈可能なアプローチを提供する。
関連論文リスト
- Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion [0.0]
本稿では3つの重要な要素を統合した動的3次元シーン再構成のための新しいフレームワークを提案する。
明示的な三面変形場、球面調和(SH)注目の視野条件付き正準場、時間的に認識される潜在拡散。
提案手法は,時間とともに進化する3つの2次元特徴面を用いて4次元シーンを符号化し,効率的なコンパクト表現を実現する。
論文 参考訳(メタデータ) (2025-05-22T11:25:38Z) - ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。
生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-18T15:21:37Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Averaging Spatio-temporal Signals using Optimal Transport and Soft
Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。
手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-11T09:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。