論文の概要: The CASTLE 2024 Dataset: Advancing the Art of Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2503.17116v1
- Date: Fri, 21 Mar 2025 13:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:40.589168
- Title: The CASTLE 2024 Dataset: Advancing the Art of Multimodal Understanding
- Title(参考訳): CASTLE 2024データセット:マルチモーダル理解技術の向上
- Authors: Luca Rossetto, Werner Bailer, Duc-Tien Dang-Nguyen, Graham Healy, Björn Þór Jónsson, Onanong Kongmeesub, Hoang-Bao Le, Stevan Rudinac, Klaus Schöffmann, Florian Spiess, Allie Tran, Minh-Triet Tran, Quang-Linh Tran, Cathal Gurrin,
- Abstract要約: エゴセントリックビデオは近年、様々な地域で使われているため、関心が高まっている。
本稿では,egoおよびexo中心のビデオを含むマルチモーダルコレクションであるCASTLE 2024データセットを提案する。
データセット全体では、毎秒50フレームで記録された600時間以上のUHDビデオが含まれている。
- 参考スコア(独自算出の注目度): 10.00887999108572
- License:
- Abstract: Egocentric video has seen increased interest in recent years, as it is used in a range of areas. However, most existing datasets are limited to a single perspective. In this paper, we present the CASTLE 2024 dataset, a multimodal collection containing ego- and exo-centric (i.e., first- and third-person perspective) video and audio from 15 time-aligned sources, as well as other sensor streams and auxiliary data. The dataset was recorded by volunteer participants over four days in a fixed location and includes the point of view of 10 participants, with an additional 5 fixed cameras providing an exocentric perspective. The entire dataset contains over 600 hours of UHD video recorded at 50 frames per second. In contrast to other datasets, CASTLE 2024 does not contain any partial censoring, such as blurred faces or distorted audio. The dataset is available via https://castle-dataset.github.io/.
- Abstract(参考訳): エゴセントリックビデオは近年、様々な地域で使われているため、関心が高まっている。
しかし、既存のデータセットのほとんどは単一の視点に限られている。
本稿では,15の時系列ソースからのエゴおよびエクソ中心(一対一、三対一の視点)ビデオとオーディオを含むマルチモーダルコレクションであるCASTLE 2024データセットと,他のセンサストリームと補助データについて述べる。
データセットは、固定された場所で4日間にわたってボランティアの参加者によって記録され、10人の参加者の視点を含む。
データセット全体では、毎秒50フレームで記録された600時間以上のUHDビデオが含まれている。
他のデータセットとは対照的に、CASTLE 2024には、ぼやけた顔や歪んだ音声などの部分的な検閲は含まれていない。
データセットはhttps://castle-dataset.github.io/.comから入手できる。
関連論文リスト
- HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。
OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。
本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文 参考訳(メタデータ) (2024-07-24T08:22:49Z) - Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - Zenseact Open Dataset: A large-scale and diverse multimodal dataset for
autonomous driving [3.549770828382121]
Zenseact Open dataset (ZOD)は、ヨーロッパ各国で2年以上にわたって収集された大規模かつ多様なデータセットである。
ZODは、同等のデータセットの中で、最高範囲と解像度のセンサーを備えている。
データセットはFrames、Sequences、Drivesで構成され、データの多様性とマルチモーダル時間学習のサポートの両方を含むように設計されている。
論文 参考訳(メタデータ) (2023-05-03T09:59:18Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - TIMo -- A Dataset for Indoor Building Monitoring with a Time-of-Flight
Camera [9.746370805708095]
タイム・オブ・フライ(ToF)カメラを用いた室内空間の映像監視用データセットTIMoについて述べる。
その結果生まれたディープビデオは、さまざまな事前定義されたアクションを実行する人々を特徴付けている。
対象とする2つのアプリケーションには、計数と異常検出を行う人物検出がある。
論文 参考訳(メタデータ) (2021-08-27T09:33:11Z) - The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines [88.47608066382267]
この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
論文 参考訳(メタデータ) (2020-04-29T21:57:04Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。