論文の概要: DepthArb: Training-Free Depth-Arbitrated Generation for Occlusion-Robust Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.23924v1
- Date: Wed, 25 Mar 2026 04:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.125094
- Title: DepthArb: Training-Free Depth-Arbitrated Generation for Occlusion-Robust Image Synthesis
- Title(参考訳): DepthArb: Occlusion-Robust画像合成のための訓練不要深度調整生成
- Authors: Hongjin Niu, Jiahao Wang, Xirui Hu, Weizhan Zhang, Lan Ma, Yuan Gao,
- Abstract要約: DepthArbは,対話対象間の注意競合を和らげることで,オクルージョンの曖昧さを解消する学習自由フレームワークである。
DepthArbは、閉塞精度と視覚的忠実度の両方を合成することにより、最先端のベースラインを一貫して上回ることを示す。
プラグアンドプレイ法として、DepthArbは拡散バックボーンの構成能力をシームレスに強化する。
- 参考スコア(独自算出の注目度): 21.345962204165932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models frequently exhibit deficiencies in synthesizing accurate occlusion relationships of multiple objects, particularly within dense overlapping regions. Existing training-free layout-guided methods predominantly rely on rigid spatial priors that remain agnostic to depth order, often resulting in concept mixing or illogical occlusion. To address these limitations, we propose DepthArb, a training-free framework that resolves occlusion ambiguities by arbitrating attention competition between interacting objects. Specifically, DepthArb employs two core mechanisms: Attention Arbitration Modulation (AAM), which enforces depth-ordered visibility by suppressing background activations in overlapping regions, and Spatial Compactness Control (SCC), which preserves structural integrity by curbing attention divergence. These mechanisms enable robust occlusion generation without model retraining. To systematically evaluate this capability, we propose OcclBench, a comprehensive benchmark designed to evaluate diverse occlusion scenarios. Extensive evaluations demonstrate that DepthArb consistently outperforms state-of-the-art baselines in both occlusion accuracy and visual fidelity. As a plug-and-play method, DepthArb seamlessly enhances the compositional capabilities of diffusion backbones, offering a novel perspective on spatial layering within generative models.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、特に重なり合う領域において、複数の物体の正確な閉塞関係を合成する際、しばしば欠陥を示す。
既存の訓練のないレイアウト誘導法は、主に深度秩序に依存せず、しばしば概念混合や非論理的閉塞をもたらす厳密な空間的先行性に依存している。
これらの制約に対処するために,対話オブジェクト間の注意競合を和らげることで,オクルージョンの曖昧さを解消するトレーニング不要のフレームワークであるDepthArbを提案する。
具体的には、DepthArbは、重なり合う領域のバックグラウンドアクティベーションを抑えることにより、奥行き順に見えるようにするAttention Arbitration Modulation (AAM)と、注意分散を抑制して構造的整合性を維持するSCC(Spatial Compactness Control)という2つのコアメカニズムを採用している。
これらのメカニズムは、モデルの再訓練なしに頑健な閉塞生成を可能にする。
この能力を体系的に評価するために,多様な閉塞シナリオを評価するために設計された総合ベンチマークであるOcclBenchを提案する。
広範囲な評価により、DepthArbは閉塞精度と視覚的忠実度の両方において、最先端のベースラインを一貫して上回っていることが示されている。
プラグアンドプレイ法として、DepthArbは拡散バックボーンの合成能力をシームレスに拡張し、生成モデル内の空間層に関する新しい視点を提供する。
関連論文リスト
- Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4174356345935393]
単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
論文 参考訳(メタデータ) (2025-05-27T14:15:19Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - High-Precision Dichotomous Image Segmentation via Depth Integrity-Prior and Fine-Grained Patch Strategy [23.431898388115044]
高精細度画像から細粒度オブジェクトを抽出する作業として,DIS(High-precision Dichotomous Image segmentation)がある。
既存の方法はジレンマに直面し、非拡散法は効率的に機能するが、弱い意味論による誤検出や誤検出に悩まされる。
単眼深度推定モデルから擬似深度情報を得ると,本質的な意味理解が得られる。
論文 参考訳(メタデータ) (2025-03-08T07:02:28Z) - Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [27.677765887774186]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - Occlusion Sensitivity Analysis with Augmentation Subspace Perturbation
in Deep Feature Space [7.021872917042116]
本稿では,コンピュータビジョンのための新しい摂動に基づく解釈可能性アプローチであるOcclusion Sensitivity Analysis with Deep Feature Augmentation Subspace (OSA-DAS)を紹介する。
提案手法では,DNNの出力ベクトルを用いて,深部特徴ベクトル空間内に低次元部分空間を構築する。
我々はImageNet-1kを広範囲にテストし、クラスやモデルに依存しないアプローチは一般的に使われているインタプリタよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T13:26:40Z) - Attention Disturbance and Dual-Path Constraint Network for Occluded
Person Re-identification [36.86516784815214]
本稿では,アテンションネットワークの一般化を促進するために,トランスフォーマーに基づくアテンション障害とデュアルパス制約ネットワーク(ADP)を提案する。
実世界の障害物を模倣するため,攻撃音を発生させるアテンション外乱マスク(ADM)モジュールを導入する。
我々はまた、全体像から望ましい監視情報を得ることができるデュアルパス制約モジュール(DPC)を開発した。
論文 参考訳(メタデータ) (2023-03-20T09:56:35Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。