論文の概要: PLAICraft: Large-Scale Time-Aligned Vision-Speech-Action Dataset for Embodied AI
- arxiv url: http://arxiv.org/abs/2505.12707v1
- Date: Mon, 19 May 2025 05:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.412082
- Title: PLAICraft: Large-Scale Time-Aligned Vision-Speech-Action Dataset for Embodied AI
- Title(参考訳): PLAICraft: 身体的AIのための大規模タイムアラインな視覚音声アクションデータセット
- Authors: Yingchen He, Christian D. Weilbach, Martyna E. Wojciechowska, Yuxuan Zhang, Frank Wood,
- Abstract要約: PLAICraftは、マルチプレイヤーMinecraftインタラクションをキャプチャする、新しいデータ収集プラットフォームとデータセットである。
このデータセットは、全世界で1万人以上の参加者による1万時間以上のゲームプレイで構成されている。
- 参考スコア(独自算出の注目度): 15.768055896349612
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advances in deep generative modelling have made it increasingly plausible to train human-level embodied agents. Yet progress has been limited by the absence of large-scale, real-time, multi-modal, and socially interactive datasets that reflect the sensory-motor complexity of natural environments. To address this, we present PLAICraft, a novel data collection platform and dataset capturing multiplayer Minecraft interactions across five time-aligned modalities: video, game output audio, microphone input audio, mouse, and keyboard actions. Each modality is logged with millisecond time precision, enabling the study of synchronous, embodied behaviour in a rich, open-ended world. The dataset comprises over 10,000 hours of gameplay from more than 10,000 global participants.\footnote{We have done a privacy review for the public release of an initial 200-hour subset of the dataset, with plans to release most of the dataset over time.} Alongside the dataset, we provide an evaluation suite for benchmarking model capabilities in object recognition, spatial awareness, language grounding, and long-term memory. PLAICraft opens a path toward training and evaluating agents that act fluently and purposefully in real time, paving the way for truly embodied artificial intelligence.
- Abstract(参考訳): 深層生成モデリングの進歩により、ヒトレベルのエンボディエージェントを訓練する可能性がますます高まっている。
しかし、大規模、リアルタイム、マルチモーダル、そして自然環境の知覚と運動の複雑さを反映した社会的に対話的なデータセットが存在しないため、進歩は制限されている。
この問題を解決するために、PLAICraftは、ビデオ、ゲーム出力オーディオ、マイク入力オーディオ、マウス、キーボードアクションの5つのタイムアラインメントでマルチプレイヤーMinecraftインタラクションをキャプチャする新しいデータ収集プラットフォームである。
それぞれのモダリティはミリ秒の時間精度で記録され、リッチでオープンな世界における同期的、具体的行動の研究を可能にする。
このデータセットは、全世界で1万人以上の参加者による1万時間以上のゲームプレイで構成されている。
われわれは、データセットの最初の200時間サブセットのパブリックリリースのプライバシレビューを行った。
データセットとともに、オブジェクト認識、空間認識、言語接地、長期記憶におけるモデルの能力をベンチマークするための評価スイートを提供する。
PLAICraftは、リアルタイムに流動的で意図的に行動するエージェントの訓練と評価の道を開き、真に具体化された人工知能の道を開く。
関連論文リスト
- Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction [5.989044517795631]
本稿では,実世界の同期型マルチモーダルデータ問題に対処するために,カイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合する。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
論文 参考訳(メタデータ) (2025-03-07T08:28:24Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Aria-NeRF: Multimodal Egocentric View Synthesis [17.0554791846124]
ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
論文 参考訳(メタデータ) (2023-11-11T01:56:35Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition [22.988658969594276]
視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットWEARを紹介する。
合計18種類のワークアウト活動を行う22人の被験者のデータを,11箇所の外部で記録した同期慣性(アクセラレーション)とカメラ(エゴセントリックビデオ)データを用いて収集した。
ベンチマークの結果,センサ配置により,各モードが予測性能に相補的な強度と弱点を与えることがわかった。
論文 参考訳(メタデータ) (2023-04-11T09:31:07Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。