論文の概要: DAG: Unleash the Potential of Diffusion Model for Open-Vocabulary 3D Affordance Grounding
- arxiv url: http://arxiv.org/abs/2508.01651v1
- Date: Sun, 03 Aug 2025 08:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.99047
- Title: DAG: Unleash the Potential of Diffusion Model for Open-Vocabulary 3D Affordance Grounding
- Title(参考訳): DAG:3次元オープンボキャブラリ接地における拡散モデルの可能性について
- Authors: Hanqing Wang, Zhenhao Zhang, Kaiyang Ji, Mingyu Liu, Wenti Yin, Yuchao Chen, Zhirui Liu, Xiangyu Zeng, Tianxiang Gui, Hangxing Zhang,
- Abstract要約: 3Dオブジェクトソーランスグラウンドは、3Dオブジェクト上でタッチ可能な領域を予測することを目的としている。
近年の進歩は実演画像から学ぶことでこの問題に対処している。
本稿では,テキスト・ツー・イメージ拡散モデルを用いて,一般的な手頃な知識を抽出することを提案する。
- 参考スコア(独自算出の注目度): 18.027971703717764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object affordance grounding aims to predict the touchable regions on a 3d object, which is crucial for human-object interaction, human-robot interaction, embodied perception, and robot learning. Recent advances tackle this problem via learning from demonstration images. However, these methods fail to capture the general affordance knowledge within the image, leading to poor generalization. To address this issue, we propose to use text-to-image diffusion models to extract the general affordance knowledge because we find that such models can generate semantically valid HOI images, which demonstrate that their internal representation space is highly correlated with real-world affordance concepts. Specifically, we introduce the DAG, a diffusion-based 3d affordance grounding framework, which leverages the frozen internal representations of the text-to-image diffusion model and unlocks affordance knowledge within the diffusion model to perform 3D affordance grounding. We further introduce an affordance block and a multi-source affordance decoder to endow 3D dense affordance prediction. Extensive experimental evaluations show that our model excels over well-established methods and exhibits open-world generalization.
- Abstract(参考訳): 3Dオブジェクトの空き地は、人間と物体の相互作用、人間とロボットの相互作用、体感、ロボットの学習に欠かせない3Dオブジェクトのタッチ可能な領域を予測することを目的としている。
近年の進歩は実演画像から学ぶことでこの問題に対処している。
しかし、これらの手法は画像内の一般的な手頃な知識を捉えることができず、一般化が不十分な結果となった。
そこで本研究では,テキスト・ツー・イメージ拡散モデルを用いて,そのようなモデルが意味論的に有効なHOI画像を生成できることから,テキスト・ツー・イメージ拡散モデルを用いて,それらの内部表現空間が現実の空き概念と高い相関関係があることを実証する。
具体的には、拡散に基づく3d空きグラウンド化フレームワークであるDAGを導入し、テキスト・ツー・イメージ拡散モデルの凍結した内部表現を活用し、3D空きグラウンド化を行うために拡散モデル内の空き知識を解放する。
さらに,高額化予測を実現するために,高額化ブロックと多ソース高額化デコーダを導入する。
実験により,本モデルが確立された手法よりも優れ,オープンワールドの一般化を示すことが示された。
関連論文リスト
- Object Affordance Recognition and Grounding via Multi-scale Cross-modal Representation Learning [64.32618490065117]
Embodied AIの中核的な問題は、人間がしているように、観察からオブジェクト操作を学ぶことだ。
本稿では,3D表現の可利用性を学習し,段階的推論戦略を採用する新しい手法を提案する。
提案手法の有効性を実証し,アベイランスグラウンドと分類の両面での性能向上を示した。
論文 参考訳(メタデータ) (2025-08-02T04:14:18Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection [77.23918785277404]
半教師付き3次元物体検出のための拡散モデルを用いて,擬似ラベルの品質向上に向けた新たな視点であるDiffusion-SS3Dを提案する。
具体的には、劣化した3Dオブジェクトサイズとクラスラベル、分布を生成し、拡散モデルをデノナイズプロセスとして利用し、バウンディングボックス出力を得る。
我々は,ScanNetとSUN RGB-Dベンチマークデータセットの実験を行い,既存手法に対する最先端性能の実現を実証した。
論文 参考訳(メタデータ) (2023-12-05T18:54:03Z) - DiffHPE: Robust, Coherent 3D Human Pose Lifting with Diffusion [54.0238087499699]
拡散モデルにより,人間のポーズ推定精度,ロバスト性,コヒーレンス性が向上することを示す。
3D-HPEにおける拡散モデルを利用する新しい戦略であるDiffHPEを紹介する。
以上の結果から, 独立拡散モデルにより, 予測可能な性能が得られる一方で, 教師付きモデルと組み合わせて精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-04T12:54:10Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。