Fugu-MT 論文翻訳(概要): Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description

論文の概要: Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description

arxiv url: http://arxiv.org/abs/2412.01398v2
Date: Wed, 02 Jul 2025 12:33:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:56.528595
Title: Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description
Title（参考訳）: Articulate3D:Universal Scene Descriptionとしての3Dシーンの全体的理解
Authors: Anna-Maria Halacheva, Yang Miao, Jan-Nico Zaech, Xi Wang, Luc Van Gool, Danda Pani Paudel,
Abstract要約: 3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
参考スコア（独自算出の注目度）: 56.69740649781989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D scene understanding is a long-standing challenge in computer vision and a key component in enabling mixed reality, wearable computing, and embodied AI. Providing a solution to these applications requires a multifaceted approach that covers scene-centric, object-centric, as well as interaction-centric capabilities. While there exist numerous datasets and algorithms approaching the former two problems, the task of understanding interactable and articulated objects is underrepresented and only partly covered in the research field. In this work, we address this shortcoming by introducing: (1) Articulate3D, an expertly curated 3D dataset featuring high-quality manual annotations on 280 indoor scenes. Articulate3D provides 8 types of annotations for articulated objects, covering parts and detailed motion information, all stored in a standardized scene representation format designed for scalable 3D content creation, exchange and seamless integration into simulation environments. (2) USDNet, a novel unified framework capable of simultaneously predicting part segmentation along with a full specification of motion attributes for articulated objects. We evaluate USDNet on Articulate3D as well as two existing datasets, demonstrating the advantage of our unified dense prediction approach. Furthermore, we highlight the value of Articulate3D through cross-dataset and cross-domain evaluations and showcase its applicability in downstream tasks such as scene editing through LLM prompting and robotic policy training for articulated object manipulation. We provide open access to our dataset, benchmark, and method's source code.
Abstract（参考訳）: 3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。これらのアプリケーションに対するソリューションを提供するには、シーン中心、オブジェクト中心、およびインタラクション中心の機能をカバーする多面的アプローチが必要です。従来の2つの問題にアプローチするデータセットやアルゴリズムは多数存在するが、対話可能なオブジェクトと明瞭なオブジェクトを理解するタスクは、あまり表現されておらず、研究領域でのみカバーされている。本研究では,(1)室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットArticulate3Dを導入することで,この問題に対処する。 Articulate3Dは8種類のアノテーションを提供しており、部品と詳細な動作情報をカバーし、すべてスケーラブルな3Dコンテンツ作成、交換、シミュレーション環境へのシームレスな統合のために設計された標準化されたシーン表現形式に格納されている。 2) USDNetは, オブジェクトの動作属性の完全な仕様とともに, パートセグメンテーションを同時に予測できる新しい統合フレームワークである。我々は、Articulate3D上のUSDNetと既存の2つのデータセットを評価し、統合された密集予測アプローチの利点を実証した。さらに, クロスデータセットおよびクロスドメイン評価によるArticulate3Dの価値を強調し, LLMプロンプトによるシーン編集やロボットポリシートレーニングなどの下流タスクに適用可能性を示す。データセット、ベンチマーク、メソッドのソースコードへのオープンアクセスを提供します。

関連論文リスト

Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文参考訳（メタデータ） (2025-06-24T05:51:22Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文参考訳（メタデータ） (2025-02-20T20:05:30Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
Unsupervised Kinematic Motion Detection for Part-segmented 3D Shape Collections [14.899075941080541]
本研究では,部分分割型3次元形状収集における調音運動の発見のための教師なしアプローチを提案する。私たちのアプローチは、カテゴリクロージャと呼ばれる概念に基づいています。オブジェクトの部分の有効な記述は、オブジェクトを同じ意味圏に保つべきです。我々は、PartNet-Mobilityデータセットから部品の動きを再発見するためにこれを用いてアプローチを評価した。
論文参考訳（メタデータ） (2022-06-17T00:50:36Z)
The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文参考訳（メタデータ） (2020-07-01T11:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。