論文の概要: Diff-SBSR: Learning Multimodal Feature-Enhanced Diffusion Models for Zero-Shot Sketch-Based 3D Shape Retrieval
- arxiv url: http://arxiv.org/abs/2604.19135v1
- Date: Tue, 21 Apr 2026 06:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.652142
- Title: Diff-SBSR: Learning Multimodal Feature-Enhanced Diffusion Models for Zero-Shot Sketch-Based 3D Shape Retrieval
- Title(参考訳): Diff-SBSR:ゼロショットスケッチに基づく3次元形状検索のためのマルチモーダル特徴強調拡散モデル学習
- Authors: Hang Cheng, Fanhe Dong, Long Zeng,
- Abstract要約: 本稿では、ゼロショットスケッチに基づく3次元形状検索(ZS-SBSR)のためのテキスト・画像拡散モデルの最初の探索について述べる。
既存のスケッチベース3次元形状検索手法は,カテゴリ管理の欠如とスケッチ入力の極端な間隔のため,ゼロショット設定に苦慮している。
凍結拡散バックボーンにCLIPの相補的な視覚的およびテキスト的手がかりを付与するマルチモーダル機能強化戦略を導入する。
- 参考スコア(独自算出の注目度): 3.1726370240379604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the first exploration of text-to-image diffusion models for zero-shot sketch-based 3D shape retrieval (ZS-SBSR). Existing sketch-based 3D shape retrieval methods struggle in zero-shot settings due to the absence of category supervision and the extreme sparsity of sketch inputs. Our key insight is that large-scale pretrained diffusion models inherently exhibit open-vocabulary capability and strong shape bias, making them well suited for zero-shot visual retrieval. We leverage a frozen Stable Diffusion backbone to extract and aggregate discriminative representations from intermediate U-Net layers for both sketches and rendered 3D views. Diffusion models struggle with sketches due to their extreme abstraction and sparsity, compounded by a significant domain gap from natural images. To address this limitation without costly retraining, we introduce a multimodal feature-enhanced strategy that conditions the frozen diffusion backbone with complementary visual and textual cues from CLIP, explicitly enhancing the ability of semantic context capture and concentrating on sketch contours. Specifically, we inject global and local visual features derived from a pretrained CLIP visual encoder, and incorporate enriched textual guidance by combining learnable soft prompts with hard textual descriptions generated by BLIP. Furthermore, we employ the Circle-T loss to dynamically strengthen positive-pair attraction once negative samples are sufficiently separated, thereby adapting to sketch noise and enabling more effective sketch-3D alignment. Extensive experiments on two public benchmarks demonstrate that our method consistently outperforms state-of-the-art approaches in ZS-SBSR.
- Abstract(参考訳): 本稿では,ゼロショットスケッチに基づく3次元形状検索(ZS-SBSR)のためのテキスト・画像拡散モデルの最初の検討を行う。
既存のスケッチベース3次元形状検索手法は,カテゴリ管理の欠如とスケッチ入力の極端な間隔のため,ゼロショット設定に苦慮している。
我々の重要な洞察は、大規模事前学習拡散モデルが本質的にオープン語彙能力と強い形状バイアスを示しており、ゼロショットビジュアル検索に適しているということである。
凍結した安定拡散バックボーンを利用して、スケッチとレンダリングされた3Dビューの両方のために中間U-Net層から識別表現を抽出し集約する。
拡散モデルは、極度の抽象性と空間性のためにスケッチに苦しむが、自然画像との大きな領域ギャップが混ざり合っている。
コスト削減なしにこの制限に対処するため,CLIPからの相補的な視覚的およびテキスト的手がかりで凍結拡散バックボーンを条件付けるマルチモーダル機能強化戦略を導入し,意味的コンテキストキャプチャとスケッチの輪郭に集中する能力を明示的に向上する。
具体的には、事前訓練されたCLIPビジュアルエンコーダから得られるグローバルおよびローカルな視覚特徴を注入し、学習可能なソフトプロンプトとBLIPが生成するハードテキスト記述を組み合わせることで、豊富なテキストガイダンスを組み込む。
さらに、負のサンプルが十分に分離された場合、円-T損失を動的に強化し、スケッチノイズに適応し、より効果的なスケッチ3Dアライメントを可能にする。
2つの公開ベンチマークの大規模な実験により、我々の手法はZS-SBSRの最先端手法よりも一貫して優れていることが示された。
関連論文リスト
- Unblur-SLAM: Dense Neural SLAM for Blurry Inputs [68.94602568657164]
Un-SLAMは、ぼやけた画像入力から鋭い3D再構成を行うための新しいパイプラインである。
動作のぼやけとデフォーカスのぼやけの両方が存在する場合の最先端性能を実証する。
いくつかの実世界のデータセットの実験では、ポーズ推定とシャープな再構成結果の両方において一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-03-26T14:29:47Z) - Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference [69.34278282513593]
Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。
我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。
我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T08:23:36Z) - PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models [5.077352707415241]
textitPointDicoは、生成的モデリングの認知と、知識の蒸留を通じて、相互モーダルなコントラスト学習の両方から学習する。
textitPointDicoは、ScanObjectNNのtextbf94.32%の精度、ShapeNetPartのtextbf86.5%のInst.mIoUといった3D表現学習において、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2025-12-09T07:57:56Z) - SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models [80.90808879991182]
体系的な分析に基づいて、スケッチ理解のための基礎モデルの2つの基本的な限界を明らかにする。
SDとCLIPを戦略的に組み合わせることで,これらの制約に対処する。
CLIPの機能をSDのデノナイズプロセスに動的に注入し,セマンティックレベルでの機能を適応的に集約することにより,スケッチ検索における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-18T10:47:46Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。