論文の概要: Sekai: A Video Dataset towards World Exploration
- arxiv url: http://arxiv.org/abs/2506.15675v1
- Date: Wed, 18 Jun 2025 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.778089
- Title: Sekai: A Video Dataset towards World Exploration
- Title(参考訳): Sekai: World Explorationに向けたビデオデータセット
- Authors: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang,
- Abstract要約: 世海(せかい)は、世界探検のためのリッチアノテーションを備えた高品質なファーストパーソン・ビデオ・データセットである。
750都市にまたがる100か国以上の地域から、5000時間以上のウォーキングやドローンビュー(FPVとUVA)ビデオで構成されている。
- 参考スコア(独自算出の注目度): 53.151247175736636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.
- Abstract(参考訳): ビデオ生成技術は目覚ましい進歩を遂げ、インタラクティブな世界探査の基礎となることを約束している。
しかし、既存のビデオ生成データセットは、限られた場所、短い期間、静的なシーン、探検と世界に関するアノテーションの欠如など、いくつかの制限に悩まされているため、世界探査訓練には適していない。
本稿では,世界探検のためのリッチアノテーションを備えた高品質なファーストパーソン・ビデオ・データセットであるセカイ(Sekai,「世界」の意味)を紹介する。
750都市にまたがる100か国以上の地域から、5000時間以上のウォーキングやドローンビュー(FPVとUVA)ビデオで構成されている。
そこで我々は,位置,シーン,天気,群衆密度,キャプション,カメラトラジェクトリによるビデオの収集,前処理,注釈作成を行う,効率的で効果的なツールボックスを開発した。
実験はデータセットの品質を実証する。
また,YUME("dream'"の意)という名前のインタラクティブなビデオワールド探索モデルをトレーニングするために,サブセットを使用する。
セカイは、ビデオ生成と世界探検の分野に恩恵を与え、貴重な応用を動機付けるだろうと信じている。
関連論文リスト
- GenWorld: Towards Detecting AI-generated Real-world Simulation Videos [79.98542193919957]
GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。
実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:33Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。
この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。
我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文 参考訳(メタデータ) (2024-11-10T03:20:00Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。