論文の概要: Seeing without Pixels: Perception from Camera Trajectories
- arxiv url: http://arxiv.org/abs/2511.21681v1
- Date: Wed, 26 Nov 2025 18:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.259035
- Title: Seeing without Pixels: Perception from Camera Trajectories
- Title(参考訳): ピクセル無しで見る:カメラの軌道からの認識
- Authors: Zihui Xue, Kristen Grauman, Dima Damen, Andrew Zisserman, Tengda Han,
- Abstract要約: 本研究では,カメラの軌跡を共同埋め込み空間に投影する専用エンコーダであるCamFormerを学習するための対照的な学習フレームワークを提案する。
一見単純さとは裏腹に、カメラの軌跡はビデオコンテンツを明らかにするための極めて重要な信号である。
本研究は,映像コンテンツを知覚するための軽量で頑健で多目的なモダリティとしてカメラ軌道を確立した。
- 参考スコア(独自算出の注目度): 111.74720805348426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can one perceive a video's content without seeing its pixels, just from the camera trajectory-the path it carves through space? This paper is the first to systematically investigate this seemingly implausible question. Towards this end, we propose a contrastive learning framework to train CamFormer, a dedicated encoder that projects camera pose trajectories into a joint embedding space, aligning them with natural language. We find that, contrary to its apparent simplicity, the camera trajectory is a remarkably informative signal to uncover video content. In other words, "how you move" can indeed reveal "what you are doing" (egocentric) or "observing" (exocentric). We demonstrate the versatility of our learned CamFormer embeddings on a diverse suite of downstream tasks, ranging from cross-modal alignment to classification and temporal analysis. Importantly, our representations are robust across diverse camera pose estimation methods, including both high-fidelity multi-sensored and standard RGB-only estimators. Our findings establish camera trajectory as a lightweight, robust, and versatile modality for perceiving video content.
- Abstract(参考訳): 動画のコンテンツは、カメラの軌跡から見て、ピクセルを見ることなく認識できますか?
本論文は,この疑わしい疑問を体系的に調査した最初の論文である。
そこで我々は,CamFormerを学習するための対照的な学習フレームワークを提案する。CamFormerはカメラのポーズを共同埋め込み空間に投影し,それらを自然言語と整合させる専用エンコーダである。
一見単純さとは裏腹に、カメラの軌跡はビデオコンテンツを明らかにするための極めて重要な信号である。
言い換えれば、"どのように動くか"は、実際に"何をしているか"(自我中心)や"観察"(外見中心)を明らかにします。
学習したCamFormer埋め込みの多種多様な下流タスクに対する汎用性を実証する。
重要なことは、高忠実度マルチセンサーと標準RGBのみの推定器を含む、多様なカメラポーズ推定手法において、我々の表現は堅牢である。
本研究は,映像コンテンツを知覚するための軽量で頑健で多目的なモダリティとしてカメラ軌道を確立した。
関連論文リスト
- Towards Understanding Camera Motions in Any Video [89.97247162415158]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。