Fugu-MT 論文翻訳(概要): A Framework for Multisensory Foresight for Embodied Agents

論文の概要: A Framework for Multisensory Foresight for Embodied Agents

arxiv url: http://arxiv.org/abs/2109.07561v1
Date: Wed, 15 Sep 2021 20:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-18 06:32:19.028772
Title: A Framework for Multisensory Foresight for Embodied Agents
Title（参考訳）: エージェントの多感的予測のためのフレームワーク
Authors: Xiaohui Chen, Ramtin Hosseini, Karen Panetta, Jivko Sinapov
Abstract要約: 将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
参考スコア（独自算出の注目度）: 11.351546861334292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting future sensory states is crucial for learning agents such as robots, drones, and autonomous vehicles. In this paper, we couple multiple sensory modalities with exploratory actions and propose a predictive neural network architecture to address this problem. Most existing approaches rely on large, manually annotated datasets, or only use visual data as a single modality. In contrast, the unsupervised method presented here uses multi-modal perceptions for predicting future visual frames. As a result, the proposed model is more comprehensive and can better capture the spatio-temporal dynamics of the environment, leading to more accurate visual frame prediction. The other novelty of our framework is the use of sub-networks dedicated to anticipating future haptic, audio, and tactile signals. The framework was tested and validated with a dataset containing 4 sensory modalities (vision, haptic, audio, and tactile) on a humanoid robot performing 9 behaviors multiple times on a large set of objects. While the visual information is the dominant modality, utilizing the additional non-visual modalities improves the accuracy of predictions.
Abstract（参考訳）: 将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって重要である。本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。既存のアプローチのほとんどは、大きく手動で注釈付けされたデータセットに依存している。対照的に、この教師なしの方法は、将来の視覚フレームを予測するためにマルチモーダル知覚を用いる。その結果、提案モデルはより包括的であり、環境の時空間ダイナミクスをよりよく捉えることができ、より正確な視覚フレーム予測に繋がる。我々のフレームワークのもう1つの目新しさは、未来の触覚、音声、触覚信号を予測するためのサブネットワークの使用です。このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。視覚情報は支配的モダリティであるが、追加の非視覚モダリティを利用することで予測の精度が向上する。

関連論文リスト

Light Future: Multimodal Action Frame Prediction via InstructPix2Pix [0.0]
本稿では,ロボット行動予測の新しい,効率的かつ軽量なアプローチを提案する。従来のビデオ予測モデルに比べて計算コストと推論遅延が大幅に削減されている。ロボットタスクの将来の視覚的フレームを予測するために、InstructPix2Pixモデルの適応を開拓した。
論文参考訳（メタデータ） (2025-07-20T03:57:18Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文参考訳（メタデータ） (2022-06-28T17:59:45Z)
A Variational Graph Autoencoder for Manipulation Action Recognition and Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文参考訳（メタデータ） (2021-10-25T21:40:42Z)
Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文参考訳（メタデータ） (2021-09-09T16:04:14Z)
Physion: Evaluating Physical Prediction from Vision in Humans and Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文参考訳（メタデータ） (2021-06-15T16:13:39Z)
Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文参考訳（メタデータ） (2021-03-18T15:12:06Z)
AC-VRNN: Attentive Conditional-VRNN for Multi-Future Trajectory Prediction [30.61190086847564]
条件付き変動リカレントニューラルネットワーク(C-VRNN)に基づくマルチフューチャ軌道予測のための生成アーキテクチャを提案する。ヒューマンインタラクションは、繰り返し推定のオンライン注意深い隠れ状態改善を可能にするグラフベースのアテンションメカニズムでモデル化される。
論文参考訳（メタデータ） (2020-05-17T17:21:23Z)
Knowledge Distillation for Action Anticipation via Label Smoothing [21.457069042129138]
視覚的観察や非言語的手がかりから未来を予測できる人間の能力は、インテリジェントなシステムを開発する上で不可欠である。我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。実験により,ラベルの平滑化は動作予測のための最先端モデルの性能を体系的に向上することが示された。
論文参考訳（メタデータ） (2020-04-16T15:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。