Fugu-MT 論文翻訳(概要): Articulation in Prime: Primitive-Based Articulated Object Understanding from a Single Casual Video

論文の概要: Articulation in Prime: Primitive-Based Articulated Object Understanding from a Single Casual Video

arxiv url: http://arxiv.org/abs/2605.18645v1
Date: Mon, 18 May 2026 16:52:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:50.110636
Title: Articulation in Prime: Primitive-Based Articulated Object Understanding from a Single Casual Video
Title（参考訳）: 素数のアーティキュレーション:単一カジュアルビデオからの原始に基づくアーティキュレーション
Authors: Arslan Artykov, Tom Ravaud, Nicolás Violante-Grezzi, Vincent Lepetit,
Abstract要約: モノクロビデオから3次元物体の3Dキネマティクスを取得することは、コンピュータビジョンにおける根本的な課題である。本稿では,対象理解を原始的適合問題として扱うカテゴリ非依存の最適化フレームワークを提案する。また,AiP-synth と AiP-real のベンチマークも提案する。
参考スコア（独自算出の注目度）: 18.06685620402906
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieving the 3D kinematics of articulated objects from monocular video is a fundamental challenge in computer vision. Existing methods rely on complex video setups or cues such as long-term point tracking or wide-baseline matching, but are frequently brittle under severe occlusions, rapid camera ego-motion, or weak local features. Learning-based methods, meanwhile, struggle to generalize beyond their training categories. We propose a category-agnostic optimization framework that treats articulated object understanding as a primitive-fitting problem. Geometric primitives serve as a proxy representation that avoids the pitfalls of unstable point tracks; a novel mechanism organizes them into coherent parts constrained by revolute and prismatic joints. Our formulation jointly optimizes part segmentation and joint parameters, recovering complex kinematics from a single casually captured video. A visibility-aware procedure handles partial observations and occlusions inherent to real-world data. We also propose the AiP-synth and AiP-real benchmarks, featuring significant camera motion and heavy occlusions, and outperform existing methods. Project page: https://aartykov.github.io/Articulation-in-Prime/
Abstract（参考訳）: モノクラービデオから明瞭な物体の3Dキネマティクスを取得することは、コンピュータビジョンにおける根本的な課題である。既存の方法は、長期点追跡や広基線マッチングのような複雑なビデオのセットアップやキューに依存しているが、深刻な閉塞、カメラの急激な移動、または弱い局所的特徴の下でしばしば脆弱である。一方、学習ベースの手法は、トレーニングカテゴリを超えて一般化するのに苦労している。本稿では,対象理解を原始的適合問題として扱うカテゴリ非依存の最適化フレームワークを提案する。幾何学的プリミティブは不安定な点軌道の落とし穴を避けるためのプロキシ表現として機能し、新しいメカニズムはそれらを反抗的および原始的な関節によって制約された一貫性のある部分に整理する。我々の定式化は、部分分割と関節パラメータを共同で最適化し、1つのカジュアルにキャプチャーされたビデオから複雑な運動学を復元する。可視性対応の手順は、現実世界のデータに固有の部分的な観察と隠蔽を処理する。また,AiP-synth と AiP-real のベンチマークも提案する。プロジェクトページ: https://aartykov.github.io/Articulation-in-Prime/

関連論文リスト

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。 GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文参考訳（メタデータ） (2026-03-19T17:59:58Z)
Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement [33.737685950541795]
Articulation in Motion (AiM)は、ユーザオブジェクトインタラクションビデオと起動状態スキャンからインタラクティブな3Dデジタルレプリカを再構成する。オブジェクトの3DGSスキャンから学習したデュアルガウスシーン表現を提案する。モーションキューを使用して、オブジェクトを部品に分割し、関節を割り当てる。
論文参考訳（メタデータ） (2026-03-03T12:07:06Z)
sim2art: Accurate Articulated Object Modeling from a Single Video using Synthetic Training Data Only [20.99905717289565]
本稿では,自由移動カメラで撮影した単眼ビデオから,関節部分のセグメンテーションと関節パラメータを共同で予測する最初のデータ駆動方式を提案する。提案手法は,実世界のオブジェクトへの強力な一般化を実証し,拡張性および実用的なオブジェクト理解ソリューションを提供する。提案手法は, カジュアルに記録された映像を直接操作し, 動的環境におけるリアルタイムなアプリケーションに適合する。
論文参考訳（メタデータ） (2025-12-08T16:38:30Z)
VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video [60.63575135514847]
モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。 VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
論文参考訳（メタデータ） (2025-09-22T11:52:02Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
TAP-Vid: A Benchmark for Tracking Any Point in a Video [84.94877216665793]
我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
論文参考訳（メタデータ） (2022-11-07T17:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。