論文の概要: X-Capture: An Open-Source Portable Device for Multi-Sensory Learning
- arxiv url: http://arxiv.org/abs/2504.02318v1
- Date: Thu, 03 Apr 2025 06:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:20.842794
- Title: X-Capture: An Open-Source Portable Device for Multi-Sensory Learning
- Title(参考訳): X-Capture:マルチセンサー学習のためのオープンソースのポータブルデバイス
- Authors: Samuel Clarke, Suzannah Wistreich, Yanjie Ze, Jiajun Wu,
- Abstract要約: 我々は,X-Captureを紹介した。X-Captureは,実世界のマルチセンサーデータ収集のための,オープンソースでポータブルで費用対効果の高いデバイスである。
1000ドル以下のビルドコストで、X-Captureはマルチセンサーデータセットの作成を民主化する。
X-Captureは、AIにおける人間のような感覚表現の進化の基礎を成している。
- 参考スコア(独自算出の注目度): 11.632896115888261
- License:
- Abstract: Understanding objects through multiple sensory modalities is fundamental to human perception, enabling cross-sensory integration and richer comprehension. For AI and robotic systems to replicate this ability, access to diverse, high-quality multi-sensory data is critical. Existing datasets are often limited by their focus on controlled environments, simulated objects, or restricted modality pairings. We introduce X-Capture, an open-source, portable, and cost-effective device for real-world multi-sensory data collection, capable of capturing correlated RGBD images, tactile readings, and impact audio. With a build cost under $1,000, X-Capture democratizes the creation of multi-sensory datasets, requiring only consumer-grade tools for assembly. Using X-Capture, we curate a sample dataset of 3,000 total points on 500 everyday objects from diverse, real-world environments, offering both richness and variety. Our experiments demonstrate the value of both the quantity and the sensory breadth of our data for both pretraining and fine-tuning multi-modal representations for object-centric tasks such as cross-sensory retrieval and reconstruction. X-Capture lays the groundwork for advancing human-like sensory representations in AI, emphasizing scalability, accessibility, and real-world applicability.
- Abstract(参考訳): 複数の感覚のモダリティを通してオブジェクトを理解することは人間の知覚の基本であり、クロス感覚の統合とよりリッチな理解を可能にする。
AIやロボットシステムがこれを再現するためには、多様な高品質なマルチセンサーデータへのアクセスが不可欠だ。
既存のデータセットは、制御された環境、シミュレートされたオブジェクト、制限されたモダリティペアリングによって制限されることが多い。
実世界のマルチセンサーデータ収集のためのオープンソースでポータブルで費用対効果の高い装置であるX-Captureを導入し、相関したRGBD画像、触覚読み取り、インパクトオーディオをキャプチャする。
1000ドル以下のビルドコストで、X-Captureは、多感覚データセットの作成を民主化し、アセンブリのためのコンシューマグレードツールのみを必要とする。
X-Captureを使って、多様で現実世界の環境から毎日500個のオブジェクトの合計3000点のサンプルデータセットをキュレートし、豊かさと多様性を提供します。
本実験は, クロス感覚検索や再構成など, 対象中心のタスクに対して, 事前学習と微調整の両方のマルチモーダル表現に対して, データの量と感覚の広さの両立を実証するものである。
X-Captureは、拡張性、アクセシビリティ、現実の応用性を強調し、AIにおける人間のような感覚表現を進化させるための基盤となる。
関連論文リスト
- 3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing [18.189782619503074]
本稿では,ロボットのためのマルチモーダルセンシング学習システムであるtextbf3D-ViTacを紹介する。
このシステムは、高密度センシングユニットを備えた触覚センサーを備えており、それぞれが3$mm2$の面積をカバーしている。
低コストのロボットでも精密な操作が可能であり、視覚のみのポリシーよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-10-31T16:22:53Z) - X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing [14.549639729808717]
現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。
既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。
この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T05:23:12Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - Aria-NeRF: Multimodal Egocentric View Synthesis [17.0554791846124]
ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
論文 参考訳(メタデータ) (2023-11-11T01:56:35Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D,
and Inertial Sensors [6.955796938573367]
mmWave, RGB-D, Inertial Sensors を用いたマルチモーダルな3次元ポーズ推定データセット mRI を提案する。
我々のデータセットは、リハビリテーション運動を行う20人の被験者から160万以上の同期フレームで構成されている。
論文 参考訳(メタデータ) (2022-10-15T23:08:44Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。