論文の概要: The ObjectFolder Benchmark: Multisensory Learning with Neural and Real
Objects
- arxiv url: http://arxiv.org/abs/2306.00956v1
- Date: Thu, 1 Jun 2023 17:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:58:01.634515
- Title: The ObjectFolder Benchmark: Multisensory Learning with Neural and Real
Objects
- Title(参考訳): ObjectFolderベンチマーク: ニューラルネットワークと実オブジェクトによる多感覚学習
- Authors: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu
Li, Li Fei-Fei, Jiajun Wu
- Abstract要約: マルチセンサーなオブジェクト中心学習のための10のタスクからなるベンチマークスイートであるObject Benchmarkを紹介した。
また,100個の実世界の家庭用オブジェクトに対するマルチセンサー計測を含む,オブジェクトリアルデータセットについても紹介する。
- 参考スコア(独自算出の注目度): 51.22194706674366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu
- Abstract(参考訳): objectfolder benchmarkは、オブジェクト認識、再構築、視覚、音、タッチ操作を中心とした、多感覚オブジェクト中心学習のための10のタスクからなるベンチマークスイートである。
また,実世界の100種類の物体のマルチセンサー計測や,実世界の物体の3dメッシュ,ビデオ,衝撃音,触覚を収集するパイプラインの構築など,objectfolder実データも紹介する。
我々はObjectFolderの1000個のマルチセンサニューラルオブジェクトとObjectFolder Realの実際のマルチセンサデータの両方に対して、系統的なベンチマークを行う。
本研究は,多感覚知覚の重要性を示し,物体中心学習タスクにおける視覚,聴覚,触覚の役割を明らかにする。
データセットとベンチマークスイートを公開することによって、コンピュータビジョンやロボティクスなどにおける多感覚のオブジェクト中心学習の新たな研究を可能にしたいと思っています。
プロジェクトページ: https://objectfolder.stanford.edu
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real Transfer [46.24535144252644]
我々は、暗黙の神経表現という形で、一般的な家庭用オブジェクトの大規模データセットであるObject 2.0を提案する。
私たちのデータセットは、オブジェクトの量と時間の桁違いに速くなった場合の10倍の大きさです。
データセット内の仮想オブジェクトから学習したモデルが,実世界のオブジェクトへの転送に成功していることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:55:01Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - A Transfer Learning Approach to Cross-Modal Object Recognition: From
Visual Observation to Robotic Haptic Exploration [13.482253411041292]
本稿では,ロボットによる能動探査によるクロスモーダルビジュオ触覚物体認識の問題点について紹介する。
そこで我々は,ビジュオ触覚の共通表現の発見,適切な特徴セットの定義,ドメイン間の特徴の移動,オブジェクトの分類という4つのステップからなるアプローチを提案する。
提案手法は94.7%の精度を達成しており、これはモノモーダルケースの精度に匹敵するものである。
論文 参考訳(メタデータ) (2020-01-18T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。