論文の概要: $\mathtt{M^3VIR}$: A Large-Scale Multi-Modality Multi-View Synthesized Benchmark Dataset for Image Restoration and Content Creation
- arxiv url: http://arxiv.org/abs/2509.16873v1
- Date: Sun, 21 Sep 2025 01:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.015119
- Title: $\mathtt{M^3VIR}$: A Large-Scale Multi-Modality Multi-View Synthesized Benchmark Dataset for Image Restoration and Content Creation
- Title(参考訳): $\mathtt{M^3VIR}$:画像復元とコンテンツ作成のための大規模マルチモードマルチビュー合成ベンチマークデータセット
- Authors: Yuanzhi Li, Lebin Zhou, Nam Ling, Zhenghao Chen, Wei Wang, Wei Jiang,
- Abstract要約: $mathtM3VIR$は、Unreal Engine 5でレンダリングされた多種多様な高忠実なゲームコンテンツのための、大規模でマルチモーダルなマルチビューデータセットである。
これには、スーパーレゾリューション(SR)用の$mathttM3VIR_MR$、新しいビュー合成(NVS)、NVS+SRタスクを組み合わせた$mathttM3VIR_MS$、そして最初のマルチスタイルのオブジェクトレベルのグラウンドトルースセットである$mathttM3VIR_MS$が含まれる。
データセットをリリースすることで、私たちは容易にすることを目指しています
- 参考スコア(独自算出の注目度): 48.26221689882808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gaming and entertainment industry is rapidly evolving, driven by immersive experiences and the integration of generative AI (GAI) technologies. Training such models effectively requires large-scale datasets that capture the diversity and context of gaming environments. However, existing datasets are often limited to specific domains or rely on artificial degradations, which do not accurately capture the unique characteristics of gaming content. Moreover, benchmarks for controllable video generation remain absent. To address these limitations, we introduce $\mathtt{M^3VIR}$, a large-scale, multi-modal, multi-view dataset specifically designed to overcome the shortcomings of current resources. Unlike existing datasets, $\mathtt{M^3VIR}$ provides diverse, high-fidelity gaming content rendered with Unreal Engine 5, offering authentic ground-truth LR-HR paired and multi-view frames across 80 scenes in 8 categories. It includes $\mathtt{M^3VIR\_MR}$ for super-resolution (SR), novel view synthesis (NVS), and combined NVS+SR tasks, and $\mathtt{M^3VIR\_{MS}}$, the first multi-style, object-level ground-truth set enabling research on controlled video generation. Additionally, we benchmark several state-of-the-art SR and NVS methods to establish performance baselines. While no existing approaches directly handle controlled video generation, $\mathtt{M^3VIR}$ provides a benchmark for advancing this area. By releasing the dataset, we aim to facilitate research in AI-powered restoration, compression, and controllable content generation for next-generation cloud gaming and entertainment.
- Abstract(参考訳): ゲームとエンターテイメント産業は、没入的な体験と生成AI(GAI)技術の統合によって急速に進化している。
このようなモデルを効果的にトレーニングするには、ゲーム環境の多様性とコンテキストをキャプチャする大規模なデータセットが必要である。
しかし、既存のデータセットは特定のドメインに制限されているり、人工的な劣化に依存している場合が多いため、ゲームコンテンツのユニークな特徴を正確に捉えることはできない。
さらに、制御可能なビデオ生成のためのベンチマークは残っていない。
これらの制約に対処するために、現在のリソースの欠点を克服するために設計された大規模でマルチモーダルなマルチビューデータセットである$\mathtt{M^3VIR}$を導入する。
既存のデータセットとは異なり、$\matht{M^3VIR}$は、Unreal Engine 5でレンダリングされた多種多様な高忠実なゲームコンテンツを提供する。
その中には、超解像(SR)のための$\matht{M^3VIR\_MR}$、新しいビュー合成(NVS)、NVS+SRタスクを組み合わせた$\matht{M^3VIR\_{MS}}$、制御されたビデオ生成の研究を可能にする最初のマルチスタイルのオブジェクトレベルのグラウンドトルースセットである$\matht{M^3VIR\_{MS}}$が含まれる。
さらに、性能基準を確立するために、最先端のSRおよびNVSメソッドをベンチマークする。
制御されたビデオ生成を直接扱うアプローチは存在しないが、$\mathtt{M^3VIR}$はこの領域を前進させるためのベンチマークを提供する。
このデータセットをリリースすることによって、次世代のクラウドゲームやエンターテイメントのためのAIによる復元、圧縮、制御可能なコンテンツ生成の研究を促進することを目指している。
関連論文リスト
- ViVo: A Dataset for Volumetric Video Reconstruction and Compression [13.827241444266308]
本稿では,VolumetrIc VideO再構成と圧縮のための新しいデータセットViVoを提案する。
データセットは実世界のボリュームビデオ制作に忠実であり、多様性の定義を拡張する最初のデータセットである。
このデータベースの利用を実証するために,3つの最先端3次元再構成手法と2つのボリュームビデオ圧縮アルゴリズムをベンチマークした。
論文 参考訳(メタデータ) (2025-05-31T13:30:21Z) - TUM2TWIN: Introducing the Large-Scale Multimodal Urban Digital Twin Benchmark Dataset [90.97440987655084]
都市デジタルツインズ(UDT)は、都市管理と多様なソースからの複雑な異種データの統合に欠かせないものとなっている。
これらの課題に対処するために、最初の総合的マルチモーダルなUrban Digital TwinベンチマークデータセットTUM2TWINを紹介する。
このデータセットには、地理的にセマンティックに整合した3Dモデルとネットワーク、およびさまざまな地球、モバイル、航空、衛星観測結果、約10,000ドル以上のデータサブセット、そして現在767GBのデータが含まれている。
論文 参考訳(メタデータ) (2025-05-12T09:48:32Z) - Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。
Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。
このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文 参考訳(メタデータ) (2025-04-14T10:14:44Z) - Latent Multimodal Reconstruction for Misinformation Detection [15.66049149213069]
誤字画像などのマルチモーダルな誤報は、デジタル時代においてますます困難を呈している。
LVLM生成ミスキャプション画像データセットのコレクションである"Miscaption This!"を紹介する。
また、真偽の字幕の埋め込みを再構築するネットワーク「Latent Multimodal Reconstruction (LAMAR)」についても紹介する。
論文 参考訳(メタデータ) (2025-04-08T13:16:48Z) - StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For
Multi-Agent Environments [13.003965333378273]
複雑なマルチエージェント動作を示すStarCraft IIリプレイに基づくベンチマーク空間推論データセットを構築した。
このデータセットが空間推論手法のプロトタイピングにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-01-09T00:05:56Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。