Fugu-MT 論文翻訳(概要): Understanding 3D Object Articulation in Internet Videos

論文の概要: Understanding 3D Object Articulation in Internet Videos

arxiv url: http://arxiv.org/abs/2203.16531v1
Date: Wed, 30 Mar 2022 17:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 15:41:57.847892
Title: Understanding 3D Object Articulation in Internet Videos
Title（参考訳）: インターネットビデオにおける3次元物体の調音理解
Authors: Shengyi Qian, Linyi Jin, Chris Rockwell, Siyi Chen, David F. Fouhey
Abstract要約: そこで本研究では,通常の映像から3次元平面音声の検出と特徴付けについて検討する。人間にとって簡単なように思えるが、この問題はコンピュータに多くの課題をもたらす。このシステムは,ビデオと3Dスキャンデータセットの組み合わせでトレーニング可能であることを示す。
参考スコア（独自算出の注目度）: 16.457168338946566
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose to investigate detecting and characterizing the 3D planar articulation of objects from ordinary videos. While seemingly easy for humans, this problem poses many challenges for computers. We propose to approach this problem by combining a top-down detection system that finds planes that can be articulated along with an optimization approach that solves for a 3D plane that can explain a sequence of observed articulations. We show that this system can be trained on a combination of videos and 3D scan datasets. When tested on a dataset of challenging Internet videos and the Charades dataset, our approach obtains strong performance. Project site: https://jasonqsy.github.io/Articulation3D
Abstract（参考訳）: 本研究では,通常の映像からの物体の3次元平面明瞭度の検出と特徴付けについて検討する。人間にとって簡単と思われるが、この問題はコンピュータに多くの課題をもたらす。そこで本研究では,3次元平面に対して,観察された調音列を記述可能な最適化手法と合わせて,調音可能な平面を求めるトップダウン検出システムを提案する。このシステムは,ビデオと3Dスキャンデータセットの組み合わせでトレーニング可能であることを示す。挑戦的なインターネットビデオとCharadesデータセットのデータセットでテストすると、強いパフォーマンスが得られる。プロジェクトサイト: https://jasonqsy.github.io/articulation3d

関連論文リスト

ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文参考訳（メタデータ） (2025-08-29T10:39:06Z)
3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。それまでの手法は、幾何推論にNeRFに依存していた。平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文参考訳（メタデータ） (2024-10-28T21:58:41Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文参考訳（メタデータ） (2024-07-08T05:03:46Z)
CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding [23.885017062031217]
3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。本稿では,まずアンカーの連鎖と最終目標を予測し,シークエンス・ツー・シーケンスのSeq2Seqタスクとして3次元視覚接地問題を定式化する。
論文参考訳（メタデータ） (2023-10-10T00:07:25Z)
BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文参考訳（メタデータ） (2023-03-24T17:13:49Z)
Articulated 3D Human-Object Interactions from RGB Videos: An Empirical Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文参考訳（メタデータ） (2022-09-12T21:03:25Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文参考訳（メタデータ） (2020-08-24T21:51:29Z)
Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文参考訳（メタデータ） (2020-07-28T03:30:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。