Fugu-MT 論文翻訳(概要): Inter3D: A Benchmark and Strong Baseline for Human-Interactive 3D Object Reconstruction

論文の概要: Inter3D: A Benchmark and Strong Baseline for Human-Interactive 3D Object Reconstruction

arxiv url: http://arxiv.org/abs/2502.14004v1
Date: Wed, 19 Feb 2025 10:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.356819
Title: Inter3D: A Benchmark and Strong Baseline for Human-Interactive 3D Object Reconstruction
Title（参考訳）: Inter3D:人間の対話型3Dオブジェクト再構成のためのベンチマークと強力なベースライン
Authors: Gan Chen, Ying He, Mulin Yu, F. Richard Yu, Gang Xu, Fei Ma, Ming Li, Guang Zhou,
Abstract要約: 我々は,人間の相互作用対象の新たな状態合成のための新しいベンチマークとアプローチであるInter3Dを提案する。提案したベンチマークで広範な実験を行い,課題とアプローチの優位性を示す。
参考スコア（独自算出の注目度）: 34.89563280020313
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in implicit 3D reconstruction methods, e.g., neural rendering fields and Gaussian splatting, have primarily focused on novel view synthesis of static or dynamic objects with continuous motion states. However, these approaches struggle to efficiently model a human-interactive object with n movable parts, requiring 2^n separate models to represent all discrete states. To overcome this limitation, we propose Inter3D, a new benchmark and approach for novel state synthesis of human-interactive objects. We introduce a self-collected dataset featuring commonly encountered interactive objects and a new evaluation pipeline, where only individual part states are observed during training, while part combination states remain unseen. We also propose a strong baseline approach that leverages Space Discrepancy Tensors to efficiently modelling all states of an object. To alleviate the impractical constraints on camera trajectories across training states, we propose a Mutual State Regularization mechanism to enhance the spatial density consistency of movable parts. In addition, we explore two occupancy grid sampling strategies to facilitate training efficiency. We conduct extensive experiments on the proposed benchmark, showcasing the challenges of the task and the superiority of our approach.
Abstract（参考訳）: 暗黙的な3次元再構成法(例えば、ニューラルレンダリング場、ガウススプラッティング)の進歩は主に、連続運動状態を持つ静的または動的物体の新規なビュー合成に焦点を当てている。しかしながら、これらのアプローチは n 個の可動部分を持つ人間の相互作用対象を効率的にモデル化するのに苦労し、2^n 個の別々のモデルが全ての離散状態を表す必要がある。この制限を克服するために,人間の相互作用対象の新たな状態合成のための新しいベンチマークとアプローチであるInter3Dを提案する。我々は、一般的に遭遇する対話オブジェクトと、トレーニング中に個々の部品状態のみが観察され、部品の組み合わせ状態が見えないような新しい評価パイプラインを特徴とする自己収集データセットを導入する。また、空間離散性テンソルを用いて物体の全ての状態を効率的にモデル化する強力なベースライン手法を提案する。トレーニング状態間のカメラトラジェクトリの非現実的制約を軽減するために,可動部品の空間密度の整合性を高めるための相互状態正規化機構を提案する。さらに,訓練の効率化を目的とした2つのグリッドサンプリング戦略について検討する。提案したベンチマークで広範な実験を行い,課題とアプローチの優位性を示す。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects [67.96148051569993]
本稿では, 近接相互作用中の2つの物体の形状と外観を再構成し, 両者を3次元で解離させるニューロ・インシシシット法を提案する。フレームワークはエンドツーエンドのトレーニングが可能で、新しいアルファブレンディング正規化を使用して管理されている。我々は,人間と物体の密接な相互作用からなる新しいデータセットを導入するとともに,武道を行う人間の2つの場面について評価する。
論文参考訳（メタデータ） (2025-02-19T18:59:56Z)
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。合成画像の可視性を評価するために,クロスビューの一貫性と新しいビューオブジェクト配置を評価する。
論文参考訳（メタデータ） (2024-12-16T05:23:45Z)
LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation [32.27869897947267]
動的3Dオブジェクトを表現するための新しいアプローチであるLEIAを紹介する。我々の手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、現在の状態にハイパーネットワークを条件付けることである。これらの状態の補間により、以前は見えなかった3次元空間に新しい調音構成を生成することができる。
論文参考訳（メタデータ） (2024-09-10T17:59:53Z)
SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。 SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文参考訳（メタデータ） (2024-01-17T11:15:09Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。 BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2022-03-21T03:35:32Z)
RobustFusion: Robust Volumetric Performance Reconstruction under Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。近年の進歩は、信頼性の高い性能回復には至っていない。人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文参考訳（メタデータ） (2021-04-30T08:41:45Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文参考訳（メタデータ） (2021-01-18T03:24:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。