論文の概要: Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories
- arxiv url: http://arxiv.org/abs/2604.09429v1
- Date: Fri, 10 Apr 2026 15:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.940888
- Title: Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories
- Title(参考訳): ピクセルとしての光: ビデオとカメラの軌跡の同時分布を学習する
- Authors: Wonbong Jang, Shikun Liu, Soubhik Sanyal, Juan Camilo Perez, Kam Woh Ng, Sanskar Agrawal, Juan-Manuel Perez-Rua, Yiannis Douratsos, Tao Xiang,
- Abstract要約: Rays as Pixelsはビデオ拡散モデルで、ビデオとカメラの軌跡に関する共同分布を学習する。
単一の訓練されたモデルは、ビデオからカメラ軌跡を予測すること、入力画像からビデオとカメラ軌跡を共同生成すること、ターゲットカメラ軌跡に沿って入力画像からビデオを生成することの3つのタスクを処理する。
ポーズ推定とカメラ制御ビデオ生成の結果を報告する。
- 参考スコア(独自算出の注目度): 25.30154413418057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering camera parameters from images and rendering scenes from novel viewpoints have long been treated as separate tasks in computer vision and graphics. This separation breaks down when image coverage is sparse or poses are ambiguous, since each task needs what the other produces. We propose Rays as Pixels, a Video Diffusion Model (VDM) that learns a joint distribution over videos and camera trajectories. We represent each camera as dense ray pixels (raxels) and denoise them jointly with video frames through Decoupled Self-Cross Attention mechanism. A single trained model handles three tasks: predicting camera trajectories from video, jointly generating video and camera trajectory from input images, and generating video from input images along a target camera trajectory. Because the model can both predict trajectories from a video and generate views conditioned on its own predictions, we evaluate it through a closed-loop self-consistency test, demonstrating that its forward and inverse predictions agree. Notably, trajectory prediction requires far fewer denoising steps than video generation, even a few denoising steps suffice for self-consistency. We report results on pose estimation and camera-controlled video generation.
- Abstract(参考訳): 画像からカメラパラメータを復元し、新しい視点からレンダリングシーンを復元することは、コンピュータビジョンとグラフィックスにおいて、長い間別のタスクとして扱われてきた。
この分離は、各タスクが他のタスクが生成したものを必要とするため、イメージカバレッジが疎かったり、ポーズがあいまいであったりする場合に分解される。
我々は、ビデオとカメラの軌跡の連成分布を学習するビデオ拡散モデル(VDM)であるRays as Pixelsを提案する。
我々は、それぞれのカメラを高密度のピクセル(ピクセル)として表現し、デカップリングされたセルフクロスアテンション機構を通じてビデオフレームと共同でデノマイズする。
単一の訓練されたモデルは、ビデオからカメラ軌跡を予測すること、入力画像からビデオとカメラ軌跡を共同生成すること、ターゲットカメラ軌跡に沿って入力画像からビデオを生成することの3つのタスクを処理する。
このモデルでは,ビデオから軌跡を予測し,自作の予測に条件付けられたビューを生成することができるため,閉ループ自己整合性テストを通じて評価し,その前方および逆予測が一致することを示す。
特に、軌道予測は、ビデオ生成よりもはるかに少ないデノイングステップを必要とする。
ポーズ推定とカメラ制御ビデオ生成の結果を報告する。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。
ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。
画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文 参考訳(メタデータ) (2025-04-30T22:34:52Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation [6.092973123903838]
本稿では,多タスク学習による拡散法を用いて,高密度VOS(DVOS)に対する半自己教師型アプローチを提案する。
本手法は, ブースステージから小麦熟成, ハーベスト熟成まで多種多様なビデオから, 小麦頭部分画のDVOS法を評価した。
本手法はコムギの頭部区分けで評価されるが,群集分析や微視的画像解析など他の作物や領域にも適用可能である。
論文 参考訳(メタデータ) (2024-06-07T17:58:36Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。