Fugu-MT 論文翻訳(概要): Sekai: A Video Dataset towards World Exploration

論文の概要: Sekai: A Video Dataset towards World Exploration

arxiv url: http://arxiv.org/abs/2506.15675v2
Date: Fri, 20 Jun 2025 09:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 12:57:34.528383
Title: Sekai: A Video Dataset towards World Exploration
Title（参考訳）: Sekai: World Explorationに向けたビデオデータセット
Authors: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang,
Abstract要約: 世海(せかい)は、世界探検のためのリッチアノテーションを備えた高品質なファーストパーソン・ビデオ・データセットである。 750都市にまたがる100か国以上の地域から、5000時間以上のウォーキングやドローンビュー(FPVとUVA)ビデオで構成されている。
参考スコア（独自算出の注目度）: 53.151247175736636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications. The project page is https://lixsp11.github.io/sekai-project/.
Abstract（参考訳）: ビデオ生成技術は目覚ましい進歩を遂げ、インタラクティブな世界探査の基礎となることを約束している。しかしながら、既存のビデオ生成データセットは、限られた場所、短い期間、静的なシーン、探検と世界に関するアノテーションの欠如など、いくつかの制限に悩まされているため、世界探査訓練には適していない。本稿では,世界探検のためのリッチアノテーションを備えた高品質なファーストパーソン・ビデオ・データセットであるセカイ(Sekai,「世界」の意味)を紹介する。 750都市にまたがる100か国以上の地域から、5000時間以上のウォーキングやドローンビュー(FPVとUVA)ビデオで構成されている。そこで我々は,位置,シーン,天気,群衆密度,キャプション,カメラトラジェクトリによるビデオの収集,前処理,注釈作成を行う,効率的で効果的なツールボックスを開発した。実験はデータセットの品質を実証する。また,YUME("dream'"の意)という名前のインタラクティブなビデオワールド探索モデルをトレーニングするために,サブセットを使用する。セカイは、ビデオ生成と世界探検の分野に恩恵を与え、貴重な応用を動機付けるだろうと信じている。プロジェクトページはhttps://lixsp11.github.io/sekai-project/。

関連論文リスト

Yume: An Interactive World Generation Model [38.818537395166835]
Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
論文参考訳（メタデータ） (2025-07-23T17:57:09Z)
GenWorld: Towards Detecting AI-generated Real-world Simulation Videos [79.98542193919957]
GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
論文参考訳（メタデータ） (2025-06-12T17:59:33Z)
WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文参考訳（メタデータ） (2025-06-02T15:41:31Z)
Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation [2.4240014793575138]
この記事の執筆時点では、現在最先端のシステムであるOpenAIのSoraは、最大1分間のビデオ制作に制限されている。本稿では,GANや拡散モデル,ビデオ生成戦略,大規模トレーニングデータセット,長大映像の評価のための品質指標,および既存の映像生成能力の限界に対処するための今後の研究領域について,現在の長大映像生成の状況について検討する。
論文参考訳（メタデータ） (2024-12-24T21:24:41Z)
From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文参考訳（メタデータ） (2024-12-10T18:59:44Z)
CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文参考訳（メタデータ） (2024-11-10T03:20:00Z)
WonderWorld: Interactive 3D Scene Generation from a Single Image [38.83667648993784]
我々はインタラクティブな3Dシーン生成のための新しいフレームワークWonderWorldを紹介する。 WonderWorldは、単一のA6000 GPU上で10秒未満で接続された多様な3Dシーンを生成する。
論文参考訳（メタデータ） (2024-06-13T17:59:10Z)
A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation [6.092973123903838]
本稿では,多タスク学習による拡散法を用いて,高密度VOS(DVOS)に対する半自己教師型アプローチを提案する。本手法は, ブースステージから小麦熟成, ハーベスト熟成まで多種多様なビデオから, 小麦頭部分画のDVOS法を評価した。本手法はコムギの頭部区分けで評価されるが,群集分析や微視的画像解析など他の作物や領域にも適用可能である。
論文参考訳（メタデータ） (2024-06-07T17:58:36Z)
Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。 MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文参考訳（メタデータ） (2023-12-07T18:59:14Z)
PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文参考訳（メタデータ） (2023-07-27T17:58:11Z)
FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文参考訳（メタデータ） (2023-03-07T02:31:08Z)
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ） (2022-04-07T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。