論文の概要: Finding Fallen Objects Via Asynchronous Audio-Visual Integration
- arxiv url: http://arxiv.org/abs/2207.03483v1
- Date: Thu, 7 Jul 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 13:56:34.107162
- Title: Finding Fallen Objects Via Asynchronous Audio-Visual Integration
- Title(参考訳): 非同期オーディオ・ビジュアル統合による秋のオブジェクトの発見
- Authors: Chuang Gan, Yi Gu, Siyuan Zhou, Jeremy Schwartz, Seth Alter, James
Traer, Dan Gutfreund, Joshua B. Tenenbaum, Josh McDermott, Antonio Torralba
- Abstract要約: 本稿では,3次元仮想環境におけるマルチモーダルオブジェクトのローカライゼーションについて検討する。
カメラとマイクを装備したロボットエージェントは、音声と視覚信号を基礎となる物理学の知識と組み合わせることで、どの物体が落下したか(そしてどこにあるか)を判断しなければならない。
このデータセットは、物理ベースの衝撃音と、フォトリアリスティックな設定でオブジェクト間の複雑な物理的相互作用をシミュレートする3DWorldプラットフォームを使用している。
- 参考スコア(独自算出の注目度): 89.75296559813437
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The way an object looks and sounds provide complementary reflections of its
physical properties. In many settings cues from vision and audition arrive
asynchronously but must be integrated, as when we hear an object dropped on the
floor and then must find it. In this paper, we introduce a setting in which to
study multi-modal object localization in 3D virtual environments. An object is
dropped somewhere in a room. An embodied robot agent, equipped with a camera
and microphone, must determine what object has been dropped -- and where -- by
combining audio and visual signals with knowledge of the underlying physics. To
study this problem, we have generated a large-scale dataset -- the Fallen
Objects dataset -- that includes 8000 instances of 30 physical object
categories in 64 rooms. The dataset uses the ThreeDWorld platform which can
simulate physics-based impact sounds and complex physical interactions between
objects in a photorealistic setting. As a first step toward addressing this
challenge, we develop a set of embodied agent baselines, based on imitation
learning, reinforcement learning, and modular planning, and perform an in-depth
analysis of the challenge of this new task.
- Abstract(参考訳): 物体の見え方や音は、その物理的性質を補完的に反映する。
多くの設定では、視覚とオーディションからのヒントは非同期に届くが、床に落ちてきたオブジェクトがそれを見つけるように統合されなければならない。
本稿では,3次元仮想環境におけるマルチモーダルオブジェクトのローカライゼーションを研究する環境を提案する。
オブジェクトは部屋のどこかに落とします。
カメラとマイクを備えた身体化されたロボットエージェントは、音声と視覚信号と基礎となる物理学の知識を組み合わせることで、どの物体がどこに落下したかを決定する必要がある。
この問題を解決するために、64室で30の物理オブジェクトカテゴリの8000インスタンスを含む大規模なデータセット、Fallen Objectsデータセットを生成しました。
このデータセットは、物理ベースの衝撃音と、フォトリアリスティックな設定でオブジェクト間の複雑な物理的相互作用をシミュレートする3DWorldプラットフォームを使用している。
この課題に対処する第一歩として,模倣学習,強化学習,モジュール計画に基づいて,具体化されたエージェントベースラインを開発し,本課題の課題を深く分析する。
関連論文リスト
- PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - AKB-48: A Real-World Articulated Object Knowledge Base [38.4899076076656]
提案するAKB-48は,48種類の実世界2,037個のオブジェクトモデルからなる大規模Articulated Object Knowledge Baseである。
AKB-48を構築するために,約10~15分でArtiKGを満たす高速調音知識モデリング(FArM)パイプラインを提案する。
提案するAKBNetは,C-VAM(Calegory-level Visual Articulation Manipulation)タスクのための新しい積分パイプラインである。
論文 参考訳(メタデータ) (2022-02-17T03:24:07Z) - Virtual Elastic Objects [18.228492027143307]
現実のオブジェクトのように振る舞う仮想オブジェクトを構築します。
我々は、微分可能な粒子ベースシミュレータを用いて、変形場を用いて代表材料パラメータを探索する。
各種力場下で12個のオブジェクトのデータセットを用いて実験を行い,コミュニティと共有する。
論文 参考訳(メタデータ) (2022-01-12T18:59:03Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Learning Object Permanence from Video [46.34427538905761]
本稿では,データからオブジェクトパーマンスを学習するためのセットアップを紹介する。
本稿では,この学習問題を,対象が可視である4つの構成要素,(2)隠蔽,(3)他の対象が包含,(4)包含対象が担持する4つの要素に分解すべき理由を説明する。
そして、これらの4つのシナリオの下でオブジェクトの位置を予測することを学習する統合されたディープアーキテクチャを提示します。
論文 参考訳(メタデータ) (2020-03-23T18:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。