論文の概要: Inter3D: A Benchmark and Strong Baseline for Human-Interactive 3D Object Reconstruction
- arxiv url: http://arxiv.org/abs/2502.14004v1
- Date: Wed, 19 Feb 2025 10:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:53.869791
- Title: Inter3D: A Benchmark and Strong Baseline for Human-Interactive 3D Object Reconstruction
- Title(参考訳): Inter3D:人間の対話型3Dオブジェクト再構成のためのベンチマークと強力なベースライン
- Authors: Gan Chen, Ying He, Mulin Yu, F. Richard Yu, Gang Xu, Fei Ma, Ming Li, Guang Zhou,
- Abstract要約: 我々は,人間の相互作用対象の新たな状態合成のための新しいベンチマークとアプローチであるInter3Dを提案する。
提案したベンチマークで広範な実験を行い,課題とアプローチの優位性を示す。
- 参考スコア(独自算出の注目度): 34.89563280020313
- License:
- Abstract: Recent advancements in implicit 3D reconstruction methods, e.g., neural rendering fields and Gaussian splatting, have primarily focused on novel view synthesis of static or dynamic objects with continuous motion states. However, these approaches struggle to efficiently model a human-interactive object with n movable parts, requiring 2^n separate models to represent all discrete states. To overcome this limitation, we propose Inter3D, a new benchmark and approach for novel state synthesis of human-interactive objects. We introduce a self-collected dataset featuring commonly encountered interactive objects and a new evaluation pipeline, where only individual part states are observed during training, while part combination states remain unseen. We also propose a strong baseline approach that leverages Space Discrepancy Tensors to efficiently modelling all states of an object. To alleviate the impractical constraints on camera trajectories across training states, we propose a Mutual State Regularization mechanism to enhance the spatial density consistency of movable parts. In addition, we explore two occupancy grid sampling strategies to facilitate training efficiency. We conduct extensive experiments on the proposed benchmark, showcasing the challenges of the task and the superiority of our approach.
- Abstract(参考訳): 暗黙的な3次元再構成法(例えば、ニューラルレンダリング場、ガウススプラッティング)の進歩は主に、連続運動状態を持つ静的または動的物体の新規なビュー合成に焦点を当てている。
しかしながら、これらのアプローチは n 個の可動部分を持つ人間の相互作用対象を効率的にモデル化するのに苦労し、2^n 個の別々のモデルが全ての離散状態を表す必要がある。
この制限を克服するために,人間の相互作用対象の新たな状態合成のための新しいベンチマークとアプローチであるInter3Dを提案する。
我々は、一般的に遭遇する対話オブジェクトと、トレーニング中に個々の部品状態のみが観察され、部品の組み合わせ状態が見えないような新しい評価パイプラインを特徴とする自己収集データセットを導入する。
また、空間離散性テンソルを用いて物体の全ての状態を効率的にモデル化する強力なベースライン手法を提案する。
トレーニング状態間のカメラトラジェクトリの非現実的制約を軽減するために,可動部品の空間密度の整合性を高めるための相互状態正規化機構を提案する。
さらに,訓練の効率化を目的とした2つのグリッドサンプリング戦略について検討する。
提案したベンチマークで広範な実験を行い,課題とアプローチの優位性を示す。
関連論文リスト
- LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation [32.27869897947267]
動的3Dオブジェクトを表現するための新しいアプローチであるLEIAを紹介する。
我々の手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、現在の状態にハイパーネットワークを条件付けることである。
これらの状態の補間により、以前は見えなかった3次元空間に新しい調音構成を生成することができる。
論文 参考訳(メタデータ) (2024-09-10T17:59:53Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。