論文の概要: Understanding 3D Object Articulation in Internet Videos
- arxiv url: http://arxiv.org/abs/2203.16531v1
- Date: Wed, 30 Mar 2022 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:41:57.847892
- Title: Understanding 3D Object Articulation in Internet Videos
- Title(参考訳): インターネットビデオにおける3次元物体の調音理解
- Authors: Shengyi Qian, Linyi Jin, Chris Rockwell, Siyi Chen, David F. Fouhey
- Abstract要約: そこで本研究では,通常の映像から3次元平面音声の検出と特徴付けについて検討する。
人間にとって簡単なように思えるが、この問題はコンピュータに多くの課題をもたらす。
このシステムは,ビデオと3Dスキャンデータセットの組み合わせでトレーニング可能であることを示す。
- 参考スコア(独自算出の注目度): 16.457168338946566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to investigate detecting and characterizing the 3D planar
articulation of objects from ordinary videos. While seemingly easy for humans,
this problem poses many challenges for computers. We propose to approach this
problem by combining a top-down detection system that finds planes that can be
articulated along with an optimization approach that solves for a 3D plane that
can explain a sequence of observed articulations. We show that this system can
be trained on a combination of videos and 3D scan datasets. When tested on a
dataset of challenging Internet videos and the Charades dataset, our approach
obtains strong performance. Project site:
https://jasonqsy.github.io/Articulation3D
- Abstract(参考訳): 本研究では,通常の映像からの物体の3次元平面明瞭度の検出と特徴付けについて検討する。
人間にとって簡単と思われるが、この問題はコンピュータに多くの課題をもたらす。
そこで本研究では,3次元平面に対して,観察された調音列を記述可能な最適化手法と合わせて,調音可能な平面を求めるトップダウン検出システムを提案する。
このシステムは,ビデオと3Dスキャンデータセットの組み合わせでトレーニング可能であることを示す。
挑戦的なインターネットビデオとCharadesデータセットのデータセットでテストすると、強いパフォーマンスが得られる。
プロジェクトサイト: https://jasonqsy.github.io/articulation3d
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding [23.885017062031217]
3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。
既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。
本稿では,まずアンカーの連鎖と最終目標を予測し,シークエンス・ツー・シーケンスのSeq2Seqタスクとして3次元視覚接地問題を定式化する。
論文 参考訳(メタデータ) (2023-10-10T00:07:25Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。
このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。
実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2022-09-12T21:03:25Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。