論文の概要: 3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism
- arxiv url: http://arxiv.org/abs/2602.20354v1
- Date: Mon, 23 Feb 2026 21:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.530031
- Title: 3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism
- Title(参考訳): 3DSPA:ビデオリアリズムを評価するための3Dセマンティックポイントオートエンコーダ
- Authors: Bhavik Chandna, Kelsey R. Allen,
- Abstract要約: 我々はセマンティクスとコヒーレントな3D構造の両方をキャプチャするビデオリアリズムの自動評価フレームワークを開発した。
提案手法は,3Dポイントトラジェクトリ,深度手がかり,DINOセマンティック特徴をビデオ評価のための統一表現に統合した3次元時間点オートエンコーダである。
実験の結果、3DSPAは、物理法則に反する映像を確実に識別し、動きのアーティファクトに敏感であり、ビデオの品質とリアリズムの人間の判断とより密に一致していることがわかった。
- 参考スコア(独自算出の注目度): 2.6197884751430327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI video generation is evolving rapidly. For video generators to be useful for applications ranging from robotics to film-making, they must consistently produce realistic videos. However, evaluating the realism of generated videos remains a largely manual process -- requiring human annotation or bespoke evaluation datasets which have restricted scope. Here we develop an automated evaluation framework for video realism which captures both semantics and coherent 3D structure and which does not require access to a reference video. Our method, 3DSPA, is a 3D spatiotemporal point autoencoder which integrates 3D point trajectories, depth cues, and DINO semantic features into a unified representation for video evaluation. 3DSPA models how objects move and what is happening in the scene, enabling robust assessments of realism, temporal consistency, and physical plausibility. Experiments show that 3DSPA reliably identifies videos which violate physical laws, is more sensitive to motion artifacts, and aligns more closely with human judgments of video quality and realism across multiple datasets. Our results demonstrate that enriching trajectory-based representations with 3D semantics offers a stronger foundation for benchmarking generative video models, and implicitly captures physical rule violations. The code and pretrained model weights will be available at https://github.com/TheProParadox/3dspa_code.
- Abstract(参考訳): AIビデオ生成は急速に進化している。
ビデオジェネレータがロボット工学から映画製作まで幅広い応用に有用であるためには、一貫してリアルなビデオを生成する必要がある。
しかしながら、生成されたビデオのリアリズムを評価することは、主に手作業によるプロセスであり、スコープが制限された人間のアノテーションや目覚ましい評価データセットが必要である。
本稿では,セマンティクスとコヒーレントな3D構造の両方をキャプチャし,参照ビデオへのアクセスを必要としないビデオリアリズムの自動評価フレームワークを開発する。
3DSPAは3Dポイントトラジェクトリ,深度手がかり,DINOセマンティック特徴をビデオ評価のための統一表現に統合した3次元時空間オートエンコーダである。
3DSPAは、オブジェクトの動作とシーン内で何が起きているのかをモデル化し、リアリズム、時間的一貫性、物理的妥当性の堅牢な評価を可能にします。
実験によると、3DSPAは物理法則に違反しているビデオを確実に識別し、動きのアーティファクトに敏感であり、複数のデータセットにわたるビデオ品質とリアリズムの人間の判断とより密に一致している。
これらの結果から,3次元意味論によるトラジェクトリに基づく表現の充実は,生成ビデオモデルのベンチマークに強力な基盤となり,物理規則違反を暗黙的に捉えることが示唆された。
コードと事前訓練されたモデルウェイトはhttps://github.com/TheProParadox/3dspa_code.comから入手できる。
関連論文リスト
- Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。
提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-08-29T10:39:06Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [54.559847511280545]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach [46.85336335756483]
Learned 3D Evaluation (L3DE) は、3次元の視覚的品質とコンピテンシーの観点から、現実世界をシミュレートするAI生成ビデオの能力を評価する方法である。
信頼スコアは、3次元視覚的コヒーレンスの観点から、リアルビデオと合成ビデオのギャップを定量化する。
L3DEは、ビデオ生成モデルをベンチマークし、ディープフェイク検出器として機能し、フラグ付き不整合を塗布することでビデオ合成を強化する。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。