Fugu-MT 論文翻訳(概要): 3D-Aware Instance Segmentation and Tracking in Egocentric Videos

論文の概要: 3D-Aware Instance Segmentation and Tracking in Egocentric Videos

arxiv url: http://arxiv.org/abs/2408.09860v2
Date: Wed, 20 Nov 2024 12:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.767963
Title: 3D-Aware Instance Segmentation and Tracking in Egocentric Videos
Title（参考訳）: エゴセントリックビデオにおける3次元インスタンスのセグメンテーションと追跡
Authors: Yash Bhalgat, Vadim Tschernezki, Iro Laina, João F. Henriques, Andrea Vedaldi, Andrew Zisserman,
Abstract要約: エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
参考スコア（独自算出の注目度）: 107.10661490652822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Egocentric videos present unique challenges for 3D scene understanding due to rapid camera motion, frequent object occlusions, and limited object visibility. This paper introduces a novel approach to instance segmentation and tracking in first-person video that leverages 3D awareness to overcome these obstacles. Our method integrates scene geometry, 3D object centroid tracking, and instance segmentation to create a robust framework for analyzing dynamic egocentric scenes. By incorporating spatial and temporal cues, we achieve superior performance compared to state-of-the-art 2D approaches. Extensive evaluations on the challenging EPIC Fields dataset demonstrate significant improvements across a range of tracking and segmentation consistency metrics. Specifically, our method outperforms the next best performing approach by $7$ points in Association Accuracy (AssA) and $4.5$ points in IDF1 score, while reducing the number of ID switches by $73\%$ to $80\%$ across various object categories. Leveraging our tracked instance segmentations, we showcase downstream applications in 3D object reconstruction and amodal video object segmentation in these egocentric settings.
Abstract（参考訳）: エゴセントリックビデオは、迅速なカメラの動き、頻繁な物体の閉塞、限られた物体の視認性による3Dシーン理解の難しさを示す。本稿では,これらの障害を克服するために3次元認識を活用する,一対一のビデオにおけるインスタンスセグメンテーションとトラッキングの新たなアプローチを提案する。本手法は,シーン幾何学,3次元オブジェクト・セントロイド・トラッキング,インスタンス・セグメンテーションを統合し,ダイナミックなエゴセントリックなシーンを解析するためのロバストなフレームワークを構築する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。 EPIC Fieldsデータセットの大規模な評価は、トラッキングとセグメンテーション整合性メトリクスの範囲で大幅に改善されている。具体的には、アソシエーション精度(AssA)が7ドル、ID1スコアが4.5ドル、IDスイッチ数が7,3\%から80\%に削減された。追跡されたインスタンスセグメンテーションを活用して、これらのエゴセントリックな設定で3Dオブジェクト再構成とアモーダルビデオオブジェクトセグメンテーションでダウンストリームアプリケーションを示す。

関連論文リスト

SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
Instance Tracking in 3D Scenes from Egocentric Videos [18.02107257369472]
AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2023-12-07T08:18:35Z)
Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文参考訳（メタデータ） (2023-06-07T17:57:45Z)
Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文参考訳（メタデータ） (2023-04-13T11:32:36Z)
OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds [4.709764624933227]
OGCと呼ばれる最初の教師なしの手法を提案し、同時に複数の3Dオブジェクトを1つの前方通過で識別する。提案手法を5つのデータセット上で広範囲に評価し,オブジェクト部分のインスタンスセグメンテーションにおいて優れた性能を示す。
論文参考訳（メタデータ） (2022-10-10T07:01:08Z)
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文参考訳（メタデータ） (2022-03-06T13:57:09Z)
ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation [19.575077449759377]
Instaniated categorization を用いて3Dインスタンスを分割するシングルステップ手法 ICM-3D を提案する。我々は、ICM-3Dの有効性を検証するための広範な実験を行い、複数のフレームワーク、バックボーン、ベンチマークにまたがるインスピレーションされた性能が得られることを示す。
論文参考訳（メタデータ） (2021-08-26T13:08:37Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。