論文の概要: Diff-3DCap: Shape Captioning with Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.23718v1
- Date: Sun, 28 Sep 2025 07:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.396029
- Title: Diff-3DCap: Shape Captioning with Diffusion Models
- Title(参考訳): Diff-3DCap:拡散モデルによる形状キャプション
- Authors: Zhenyu Shu, Jiawei Wen, Shiyang Li, Shiqing Xin, Ligang Liu,
- Abstract要約: Diff-3DCapは3次元オブジェクトと連続拡散モデルを表現するために一連の投影されたビューを使用し、キャプション処理を容易にする。
実験の結果,Diff-3DCapは現在の最先端手法に匹敵する性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 27.69808457236316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of 3D shape captioning occupies a significant place within the domain of computer graphics and has garnered considerable interest in recent years. Traditional approaches to this challenge frequently depend on the utilization of costly voxel representations or object detection techniques, yet often fail to deliver satisfactory outcomes. To address the above challenges, in this paper, we introduce Diff-3DCap, which employs a sequence of projected views to represent a 3D object and a continuous diffusion model to facilitate the captioning process. More precisely, our approach utilizes the continuous diffusion model to perturb the embedded captions during the forward phase by introducing Gaussian noise and then predicts the reconstructed annotation during the reverse phase. Embedded within the diffusion framework is a commitment to leveraging a visual embedding obtained from a pre-trained visual-language model, which naturally allows the embedding to serve as a guiding signal, eliminating the need for an additional classifier. Extensive results of our experiments indicate that Diff-3DCap can achieve performance comparable to that of the current state-of-the-art methods.
- Abstract(参考訳): 3次元形状キャプションの課題はコンピュータグラフィックスの領域において重要な位置を占めており、近年は大きな関心を集めている。
この課題に対する伝統的なアプローチは、コストのかかるボクセル表現やオブジェクト検出技術の利用にしばしば依存するが、満足のいく結果の達成には失敗することが多い。
本稿では,Diff-3DCapを紹介する。Diff-3DCapは3次元オブジェクトと連続拡散モデルを表現するために一連の投影されたビューを用いて,キャプション処理を容易にする。
より正確には,本手法は連続拡散モデルを用いてガウスノイズを導入し,逆相のアノテーションを予測することにより,前相の埋め込みキャプションを摂動させる。
拡散フレームワークに埋め込まれているのは、事前訓練された視覚言語モデルから得られる視覚的な埋め込みを活用することであり、これにより埋め込みが誘導信号として機能し、追加の分類器を必要としない。
実験の結果,Diff-3DCapは現状の最先端手法に匹敵する性能を達成できることが示唆された。
関連論文リスト
- Taming Video Diffusion Prior with Scene-Grounding Guidance for 3D Gaussian Splatting from Sparse Inputs [28.381287866505637]
本稿では,映像拡散モデルから学習した先行情報を生かした生成パイプラインによる再構成手法を提案する。
最適化された3DGSからのレンダリングシーケンスに基づく新しいシーングラウンドガイダンスを導入し,拡散モデルを用いて一貫したシーケンスを生成する。
提案手法はベースラインを大幅に改善し,挑戦的なベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-07T01:59:05Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。