論文の概要: Cambrian-P: Pose-Grounded Video Understanding
- arxiv url: http://arxiv.org/abs/2605.22819v1
- Date: Thu, 21 May 2026 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.394484
- Title: Cambrian-P: Pose-Grounded Video Understanding
- Title(参考訳): Cambrian-P:Pose-Grounded Video Understanding
- Authors: Jihan Yang, Zifan Zhao, Xichen Pan, Shusheng Yang, Junyi Zhang, Bingyi Kang, Hu Xu, Saining Xie,
- Abstract要約: フレーム単位の学習可能なカメラトークンとポーズ回帰ヘッドを備えたビデオMLLMであるCambrianPを紹介する。
入念に設計したサンプリング手法により,空間推論ベンチマークにおいてかなりの利得が得られる。
驚くべきことに、ワイルドビデオにおける擬似アノテーション付きポーズのトレーニングは、一般的なビデオQAベンチマークをさらに改善する。
- 参考スコア(独自算出の注目度): 51.130482325090064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera pose matters. The position and orientation of each viewpoint define a shared spatial coordinate frame that relates observations across video frames. Yet this signal is largely absent from multimodal LLMs (MLLMs) for video understanding, which process frames as isolated 2D snapshots, instead of the persistent scene humans perceive. We revisit pose as a lightweight supervisory signal and introduce Cambrian-P, a video MLLM augmented with per-frame learnable camera tokens and a pose regression head. With a carefully designed sampling scheme, the model achieves substantial gains of 4.5-6.5% on spatial reasoning benchmarks such as VSI-Bench, generalizes across eight additional spatial and general video QA benchmarks, and, as a byproduct, achieves state of the art streaming pose estimation on ScanNet. Surprisingly, training on pseudo-annotated poses from in-the-wild video further improves general video QA benchmarks, showing pose helps beyond spatial reasoning. Together, these results position camera pose as a fundamental signal for video models that reason about the physical world.
- Abstract(参考訳): カメラのポーズ。
各視点の位置と向きは、ビデオフレーム間の観察を関連付ける共有空間座標フレームを定義する。
しかし、この信号はビデオ理解のためのマルチモーダルLLM(MLLM)にはほとんど欠落しており、フレームを人間の知覚する永続的なシーンではなく、孤立した2Dスナップショットとして処理している。
フレーム単位の学習可能なカメラトークンとポーズ回帰ヘッドを備えたビデオMLLMであるCambrian-Pを紹介する。
慎重に設計されたサンプリング方式により、VSI-Benchのような空間推論ベンチマークにおいて4.5-6.5%の大幅なゲインを達成し、8つの追加空間および一般的なビデオQAベンチマークを一般化し、副産物として、ScanNetで最先端のストリーミングポーズ推定を行う。
驚くべきことに、野生の動画からの擬似アノテーション付きポーズのトレーニングは、一般的なビデオQAベンチマークをさらに改善し、空間的推論以上のポーズを示す。
これらの結果と合わせて、位置カメラは物理世界を説明するビデオモデルの基本信号として機能する。
関連論文リスト
- Geometry-Guided Camera Motion Understanding in VideoLLMs [8.928448861727274]
カメラモーションは、視覚知覚と撮影スタイルを形作る基本的な幾何学的信号である。
現在のビデオ対応視覚注入モデル(VideoLLMs)は、明確に表現されることがほとんどなく、しばしば細かい動きプリミティブで失敗する。
カメラ動作を制約対応マルチラベル認識として定式化する。
実験では、改良されたモーション認識と、よりカメラ対応のモデル応答が示される。
論文 参考訳(メタデータ) (2026-03-13T16:13:09Z) - On the Generalization Capacities of MLLMs for Spatial Intelligence [72.21075026598761]
我々は、RGBのみのアプローチは、カメラをまたいで一般化する能力に根本的な欠陥があると主張している。
これによりMLLMは、真の3次元幾何学的原理を学習するのではなく、トレーニングカメラの分布に過度に適合することを示す。
空間MLLMのためのカメラ対応MLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-05T14:46:11Z) - PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence [67.78835640962167]
ポーズ誘導映像生成(Pose-Guided video generation)とは、ポーズの連続を通して生成された映像中の被写体の動きを制御すること。
我々は、人間と非人間の両方を扱える初のユニバーサルポーズ誘導ビデオ生成フレームワークであるPoseAnythingを提案する。
提案するXPoseは,5万対のポーズビデオと,アノテーションとフィルタリングのための自動パイプラインを含む高品質な公開データセットである。
論文 参考訳(メタデータ) (2025-12-15T16:03:26Z) - SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - SmallGS: Gaussian Splatting-based Camera Pose Estimation for Small-Baseline Videos [9.416105948337291]
SmallGSは、小さなベースラインビデオ用に特別に設計されたカメラポーズ推定フレームワークである。
カメラのポーズを、明示的な特徴対応や強い視差の動きなしで学習する。
MonST3RやDORID-SLAMと比較して、ダイナミックなシーンでの小さなベースラインビデオと比較して、カメラのポーズ推定において印象的な精度を実現している。
論文 参考訳(メタデータ) (2025-04-22T18:00:00Z) - Towards Understanding Camera Motions in Any Video [89.97247162415158]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - Coarse-to-Fine Multi-Scene Pose Regression with Transformers [19.927662512903915]
多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。
本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。
提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
論文 参考訳(メタデータ) (2023-08-22T20:43:31Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。