論文の概要: CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.00181v1
- Date: Fri, 30 Jan 2026 04:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.033857
- Title: CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning
- Title(参考訳): CamReasoner: 構造的空間推論によるカメラ運動理解の強化
- Authors: Hang Wu, Yujun Cai, Zehao Li, Haonan Ge, Bowen Sun, Junsong Yuan, Yiwei Wang,
- Abstract要約: CamReasonerは、カメラムーブメントの理解を構造化推論プロセスとして再構築するフレームワークである。
我々は、この領域における論理的アライメントにRLを初めて採用し、運動推論が物理幾何学に基礎を置いていることを保証する。
- 参考スコア(独自算出の注目度): 40.654048754955404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding camera dynamics is a fundamental pillar of video spatial intelligence. However, existing multimodal models predominantly treat this task as a black-box classification, often confusing physically distinct motions by relying on superficial visual patterns rather than geometric cues. We present CamReasoner, a framework that reformulates camera movement understanding as a structured inference process to bridge the gap between perception and cinematic logic. Our approach centers on the Observation-Thinking-Answer (O-T-A) paradigm, which compels the model to decode spatio-temporal cues such as trajectories and view frustums within an explicit reasoning block. To instill this capability, we construct a Large-scale Inference Trajectory Suite comprising 18k SFT reasoning chains and 38k RL feedback samples. Notably, we are the first to employ RL for logical alignment in this domain, ensuring motion inferences are grounded in physical geometry rather than contextual guesswork. By applying Reinforcement Learning to the Observation-Think-Answer (O-T-A) reasoning paradigm, CamReasoner effectively suppresses hallucinations and achieves state-of-the-art performance across multiple benchmarks.
- Abstract(参考訳): カメラダイナミクスを理解することは、ビデオ空間知能の基本的な柱である。
しかし、既存のマルチモーダルモデルは、主にこのタスクをブラックボックスの分類として扱い、幾何学的な手がかりではなく表面的な視覚パターンに頼ることによって、物理的に異なる動きを混乱させることがしばしばある。
CamReasonerは、カメラの動き理解を構造化推論プロセスとして再構成し、認識と映像論理のギャップを埋めるフレームワークである。
提案手法は,観測・シンキング・アンサー(O-T-A)パラダイムを中心に,軌跡などの時空間的手がかりを明示的な推論ブロック内で復号する手法である。
この機能を具体化するために、18k SFT推論チェーンと38k RLフィードバックサンプルからなる大規模推論トラジェクトリスイートを構築した。
特に、我々はこの領域における論理的アライメントにRLを初めて採用し、動きの推測が文脈的推測よりも物理的な幾何学に基礎を置いていることを保証する。
強化学習をオブザーバ・シンク・アンサー(O-T-A)推論パラダイムに適用することにより、CamReasonerは幻覚を効果的に抑制し、複数のベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。