論文の概要: Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
- arxiv url: http://arxiv.org/abs/2510.08673v1
- Date: Thu, 09 Oct 2025 17:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.38914
- Title: Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
- Title(参考訳): カメラで考える:カメラ中心の理解と生成のための統一型マルチモーダルモデル
- Authors: Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy,
- Abstract要約: Puffinはカメラ中心のマルチモーダルモデルであり、カメラ次元に沿って空間認識を拡張する。
我々は,カメラを言語として扱う新しいパラダイムを導入し,カメラによる思考を可能にした。
コード、モデル、データセットパイプライン、ベンチマークを公開し、マルチモーダル空間知能研究を前進させます。
- 参考スコア(独自算出の注目度): 65.05238859989076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-centric understanding and generation are two cornerstones of spatial intelligence, yet they are typically studied in isolation. We present Puffin, a unified camera-centric multimodal model that extends spatial awareness along the camera dimension. Puffin integrates language regression and diffusion-based generation to interpret and create scenes from arbitrary viewpoints. To bridge the modality gap between cameras and vision-language, we introduce a novel paradigm that treats camera as language, enabling thinking with camera. This guides the model to align spatially grounded visual cues with photographic terminology while reasoning across geometric context. Puffin is trained on Puffin-4M, a large-scale dataset of 4 million vision-language-camera triplets. We incorporate both global camera parameters and pixel-wise camera maps, yielding flexible and reliable spatial generation. Experiments demonstrate Puffin superior performance over specialized models for camera-centric generation and understanding. With instruction tuning, Puffin generalizes to diverse cross-view tasks such as spatial imagination, world exploration, and photography guidance. We will release the code, models, dataset pipeline, and benchmark to advance multimodal spatial intelligence research.
- Abstract(参考訳): カメラ中心の理解と生成は空間知性の2つの基盤であるが、通常は独立して研究されている。
本稿では,カメラ次元に沿って空間認識を拡大する統合カメラ中心型マルチモーダルモデルであるPuffinを提案する。
Puffinは言語回帰と拡散に基づく生成を統合して、任意の視点からシーンを解釈し、生成する。
カメラと視覚言語の間のモダリティギャップを埋めるために、カメラを言語として扱い、カメラによる思考を可能にする新しいパラダイムを導入する。
これは空間的接地された視覚的手がかりを幾何学的文脈を越えて推論しながら写真的用語と整合させるモデルである。
Puffinは400万の視覚言語カメラトリプレットからなる大規模なデータセットであるPuffin-4Mでトレーニングされている。
我々は,グローバルカメラパラメータと画素ワイドカメラマップの両方を取り入れ,フレキシブルで信頼性の高い空間生成を実現する。
実験では、カメラ中心の生成と理解のための特殊なモデルよりもPuffinの方が優れた性能を示している。
インストラクションチューニングにより、Puffinは空間的想像力、世界探索、写真誘導といった多様なクロスビュータスクに一般化される。
コード、モデル、データセットパイプライン、ベンチマークを公開し、マルチモーダル空間知能研究を前進させます。
関連論文リスト
- SpatialVID: A Large-Scale Video Dataset with Spatial Annotations [58.01259302233675]
SpaceVIDは、さまざまなシーン、カメラの動き、フレームごとのカメラポーズ、奥行き、動き指示などの密集した3Dアノテーションを備えた、Wildのビデオのデータセットである。
21,000時間以上の生のビデオを収集し、階層的なフィルタリングパイプラインを通して270万のクリップに処理します。
その後のアノテーションパイプラインは、カメラポーズ、深度マップ、ダイナミックマスク、構造化キャプション、シリアライズされたモーションインストラクションなど、これらのクリップを詳細な空間的および意味的な情報で強化する。
論文 参考訳(メタデータ) (2025-09-11T17:59:31Z) - MVL-Loc: Leveraging Vision-Language Model for Generalizable Multi-Scene Camera Relocalization [11.075399895096162]
本稿では,新しいエンド・ツー・エンドのマルチシーンカメラ・リローカライズ・フレームワークであるMVL-Locを提案する。
自然言語は多場面学習プロセスを導くための指示ツールとして使用される。
7ScenesとCambridge Landmarksのデータセットの実験では、MVL-Locの堅牢性と最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-07-06T18:52:16Z) - Towards Understanding Camera Motions in Any Video [89.97247162415158]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。