論文の概要: VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection
- arxiv url: http://arxiv.org/abs/2605.01365v1
- Date: Sat, 02 May 2026 10:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.730625
- Title: VoxAfford: Multi-Scale Voxel-Token Fusion for Open-Vocabulary 3D Affordance Detection
- Title(参考訳): VoxAfford:3次元オープン語彙検出のためのマルチスケールVoxel-Token Fusion
- Authors: Haowen Sun, Shaolong Zhang, Mingyang Li, Chengzhong Ma, Xinzhe Chen, Qiongjie Cui, Xingyu Chen, Zeyang Liu, Xuguang Lan,
- Abstract要約: オープンボキャブラリー3Dアベイランス検出は、新しいアベイランス記述を与えられた点雲上の相互作用領域をローカライズする必要がある。
凍結した3次元VQVAEエンコーダを生成後に出力トークンに注入することにより,このボトルネックを回避するVoxel-enhanced Afford Detection (VoxAfford)を提案する。
VoxAffordはmIoUの約8%の改善で最先端のパフォーマンスを達成し、実際のロボット実験で新しいオブジェクトへのゼロショット転送が確認された。
- 参考スコア(独自算出の注目度): 46.776206263724355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D affordance detection requires localizing interaction regions on point clouds given novel affordance descriptions. Recent methods extend multimodal large language models (MLLMs) with special output tokens that are decoded into segmentation masks. However, these tokens are produced through autoregressive generation, which models sequential dependencies rather than spatial neighborhood relations, leaving them semantically rich but spatially impoverished for 3D localization. We propose Voxel-enhanced Affordance detection (VoxAfford), which bypasses this bottleneck by injecting multi-scale geometric features from a frozen pre-trained 3D VQVAE encoder into the output tokens after generation. Each output token uses its affordance semantics as a query to retrieve relevant geometric patterns from its paired voxel scale via cross-attention, with a learned compatibility gate controlling the injection strength. The enhanced tokens are then aggregated into a spatially-aware affordance prompt through semantic-conditioned attention and propagated alongside per-point features to generate the final mask. Experiments on open-vocabulary affordance detection tasks show that VoxAfford achieves state-of-the-art performance with approximately an 8% improvement in mIoU, and real robot experiments confirm zero-shot transfer to novel objects.
- Abstract(参考訳): オープンボキャブラリー3Dアベイランス検出は、新しいアベイランス記述を与えられた点雲上の相互作用領域をローカライズする必要がある。
最近の手法は、セグメント化マスクにデコードされた特別な出力トークンを持つマルチモーダル大言語モデル(MLLM)を拡張している。
しかし、これらのトークンは自己回帰生成によって生成され、空間的近傍関係よりも連続的な依存関係をモデル化し、意味的にリッチだが3Dの局所化には空間的に不足している。
凍結した3次元VQVAEエンコーダを生成後に出力トークンに注入することにより,このボトルネックを回避するVoxel-enhanced Afford Detection (VoxAfford)を提案する。
それぞれの出力トークンは、アベイランスのセマンティクスをクエリとして使用し、対のボクセルスケールから相互アテンションを介して関連する幾何学的パターンを検索し、学習された互換性ゲートが注入強度を制御する。
拡張されたトークンは、セマンティックコンディショニングされた注意を通して空間的に認識されたアプライアンスプロンプトに集約され、ポイントごとの特徴とともに伝播して最終マスクを生成する。
VoxAffordはmIoUの約8%の改善で最先端のパフォーマンスを達成し、実際のロボット実験は新規なオブジェクトへのゼロショット転送を確認している。
関連論文リスト
- LESV: Language Embedded Sparse Voxel Fusion for Open-Vocabulary 3D Scene Understanding [9.377694035678948]
本稿では,Sparse Voxel Rasterization (SVRaster) を構造的,不随伴な幾何学表現として活用する新しいフレームワークを提案する。
これにより、決定論的で信頼性に配慮した特徴登録プロセスが可能となり、3DGSに共通する意味的出血アーティファクトが抑制される。
提案手法は,Open Vocabulary 3D Object Retrieval と Point Cloud Understanding ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-01T20:48:06Z) - Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models [50.14156501544165]
空間的推論は3次元シーンにおける空間的関係に基づく対象物の位置決めに焦点を当てる。
従来のアプローチでは、大規模言語モデルの入力空間に3Dシーン表現を注入しようと試みてきた。
オブジェクト数に線形な入力長を持つ新しい位置埋め込み法であるQuatRoPEを提案する。
論文 参考訳(メタデータ) (2026-03-25T18:46:23Z) - OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。
また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。
提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文 参考訳(メタデータ) (2025-08-02T02:22:36Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-22T06:42:23Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。