論文の概要: Geometry-Guided Camera Motion Understanding in VideoLLMs
- arxiv url: http://arxiv.org/abs/2603.13119v1
- Date: Fri, 13 Mar 2026 16:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.182571
- Title: Geometry-Guided Camera Motion Understanding in VideoLLMs
- Title(参考訳): ビデオLLMにおける幾何学誘導型カメラモーション理解
- Authors: Haoan Feng, Sri Harsha Musunuri, Guan-Ming Su,
- Abstract要約: カメラモーションは、視覚知覚と撮影スタイルを形作る基本的な幾何学的信号である。
現在のビデオ対応視覚注入モデル(VideoLLMs)は、明確に表現されることがほとんどなく、しばしば細かい動きプリミティブで失敗する。
カメラ動作を制約対応マルチラベル認識として定式化する。
実験では、改良されたモーション認識と、よりカメラ対応のモデル応答が示される。
- 参考スコア(独自算出の注目度): 8.928448861727274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera motion is a fundamental geometric signal that shapes visual perception and cinematic style, yet current video-capable vision-language models (VideoLLMs) rarely represent it explicitly and often fail on fine-grained motion primitives. We address this gap with a framework of $\textbf{benchmarking}$, $\textbf{diagnosis}$, and $\textbf{injection}$. We curate $\textbf{CameraMotionDataset}$, a large-scale synthetic dataset with explicit camera control, formulate camera motion as constraint-aware multi-label recognition, and construct a VQA benchmark--$\textbf{CameraMotionVQA}$. Across diverse off-the-shelf VideoLLMs, we observe substantial errors in recognizing camera motion primitives. Probing experiments on a Qwen2.5-VL vision encoder suggest that camera motion cues are weakly represented, especially in deeper ViT blocks, helping explain the observed failure modes. To bridge this gap without costly training or fine-tuning, we propose a lightweight, model-agnostic pipeline that extracts geometric camera cues from 3D foundation models (3DFMs), predicts constrained motion primitives with a temporal classifier, and injects them into downstream VideoLLM inference via structured prompting. Experiments demonstrate improved motion recognition and more camera-aware model responses, highlighting geometry-driven cue extraction and structured prompting as practical steps toward a camera-aware VideoLLM and VLA system. The dataset and benchmark is publicly available at https://hf.co/datasets/fengyee/camera-motion-dataset-and-benchmark.
- Abstract(参考訳): カメラモーションは、視覚知覚と撮影スタイルを形作る基本的な幾何学的信号であるが、現在のビデオLLM(英語版)は、それを明示的に表現することは滅多になく、しばしば微細なモーションプリミティブで失敗する。
このギャップを、$\textbf{benchmarking}$, $\textbf{diagnosis}$, $\textbf{injection}$というフレームワークで解決する。
我々は、明示的なカメラ制御を備えた大規模合成データセットである$\textbf{CameraMotionDataset}$をキュレートし、制約を意識したマルチラベル認識としてカメラの動きを定式化し、VQAベンチマークを構築する。
カメラモーションプリミティブの認識において,様々なオフザシェルフビデオLLMに対して,かなりの誤差を観測した。
Qwen2.5-VLビジョンエンコーダを用いた実験では、特に深いVTブロックにおいて、カメラモーションキューが弱いことが示唆され、観測された故障モードの説明に役立っている。
本研究では,3次元基礎モデル(3DFM)から幾何学的カメラキューを抽出し,時間的分類器を用いて制約された動きプリミティブを予測し,構造的プロンプトにより下流のビデオLLM推論に注入する,軽量でモデルに依存しないパイプラインを提案する。
カメラが認識するビデオLLMとVLAシステムへの実践的なステップとして、モーション認識の改善とカメラ対応モデル応答の向上、幾何学駆動キュー抽出と構造化プロンプトの強調が示されている。
データセットとベンチマークはhttps://hf.co/datasets/fengyee/camera-motion-dataset-and-benchmarkで公開されている。
関連論文リスト
- CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback [43.174121093566264]
我々は、Reward Feedback Learningを構築し、カメラの制御性をさらに向上することを目指している。
現在の報酬モデルには、ビデオカメラのアライメントを評価する能力がない。
本稿では,映像遅延を3次元表現にデコードして報酬量子化を行う,効率的なカメラ対応3Dデコーダを提案する。
論文 参考訳(メタデータ) (2026-01-22T18:59:56Z) - Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization [32.42754288735215]
CETCAMはカメラ制御可能なビデオ生成フレームワークである。
一貫性のあるトークン化スキームによって、カメラアノテーションは不要になる。
多様な生のビデオデータから堅牢なカメラ制御性を学び、高忠実度データセットを使用してきめ細かい視覚的品質を洗練する。
論文 参考訳(メタデータ) (2025-12-22T04:21:39Z) - Estimating 2D Camera Motion with Hybrid Motion Basis [45.971928868591334]
CamFlowは、ハイブリッドモーションベースを使用したカメラモーションを表現する新しいフレームワークである。
提案手法は,ラプラス分布に基づくハイブリッド確率損失関数を含む。
CamFlowはさまざまなシナリオで最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-07-30T08:30:37Z) - MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文 参考訳(メタデータ) (2024-12-05T18:59:42Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。