論文の概要: Event-based Vision for Early Prediction of Manipulation Actions
- arxiv url: http://arxiv.org/abs/2307.14332v1
- Date: Wed, 26 Jul 2023 17:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 11:30:17.554321
- Title: Event-based Vision for Early Prediction of Manipulation Actions
- Title(参考訳): イベントベースビジョンによるマニピュレーション動作の早期予測
- Authors: Daniel Deniz and Cornelia Fermuller and Eduardo Ros and Manuel
Rodriguez-Alvarez and Francisco Barranco
- Abstract要約: ニューロモルフィック視覚センサー(Neuromorphic visual sensor)は、シーンの明るさが変化したときの事象の出力をシーケンスする人工網膜である。
本研究では,微粒な操作動作に関するイベントベースデータセットを提案する。
また,事象を伴う行動予測にトランスフォーマーを用いることについて実験的に検討した。
- 参考スコア(独自算出の注目度): 0.7699714865575189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuromorphic visual sensors are artificial retinas that output sequences of
asynchronous events when brightness changes occur in the scene. These sensors
offer many advantages including very high temporal resolution, no motion blur
and smart data compression ideal for real-time processing. In this study, we
introduce an event-based dataset on fine-grained manipulation actions and
perform an experimental study on the use of transformers for action prediction
with events. There is enormous interest in the fields of cognitive robotics and
human-robot interaction on understanding and predicting human actions as early
as possible. Early prediction allows anticipating complex stages for planning,
enabling effective and real-time interaction. Our Transformer network uses
events to predict manipulation actions as they occur, using online inference.
The model succeeds at predicting actions early on, building up confidence over
time and achieving state-of-the-art classification. Moreover, the
attention-based transformer architecture allows us to study the role of the
spatio-temporal patterns selected by the model. Our experiments show that the
Transformer network captures action dynamic features outperforming video-based
approaches and succeeding with scenarios where the differences between actions
lie in very subtle cues. Finally, we release the new event dataset, which is
the first in the literature for manipulation action recognition. Code will be
available at https://github.com/DaniDeniz/EventVisionTransformer.
- Abstract(参考訳): ニューロモルフィックな視覚センサーは、シーンで明るさが変化するときに非同期イベントのシーケンスを出力する人工網膜である。
これらのセンサーは、非常に高時間分解能、動きのぼやけがなく、リアルタイム処理に理想的なスマートデータ圧縮など、多くの利点を提供している。
本研究では,微粒な操作動作に関するイベントベースデータセットを導入し,イベントを伴う動作予測にトランスフォーマーを使用する実験を行った。
認知ロボティクスや人間とロボットの相互作用の分野では、人間の行動の理解と予測にできる限り早く関心がある。
早期予測は、計画のための複雑な段階を予測し、効果的かつリアルタイムなインタラクションを可能にする。
当社のTransformerネットワークでは,オンライン推論を用いてイベントを使用して操作動作の予測を行っている。
このモデルは、早期に行動を予測することに成功し、時間とともに信頼性を高め、最先端の分類を達成する。
さらに,注意に基づくトランスフォーマアーキテクチャにより,モデルによって選択された時空間パターンの役割を考察できる。
実験の結果,Transformer ネットワークはビデオベースのアプローチよりも優れた動作ダイナミックな特徴を捉え,アクション間の差異が極めて微妙な方法で発生するシナリオに成功していることがわかった。
最後に,新たなイベントデータセットをリリースする。このデータセットは,アクション認識の操作に関する文献の中で最初のものだ。
コードはhttps://github.com/DaniDeniz/EventVisionTransformer.comから入手できる。
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - A Cloud-based Deep Learning Framework for Early Detection of Pushing at
Crowded Event Entrances [0.0]
混み合ったイベント入口におけるプッシュの自動早期検出のためのクラウドベースのディープラーニングフレームワークを提案する。
5つの実世界の実験と関連する地上真実データに基づいて、新しいデータセットを生成する。
提案手法では, 適切な遅延時間内に, 87%の精度でプッシュ動作を同定した。
論文 参考訳(メタデータ) (2023-02-16T11:39:32Z) - PREF: Predictability Regularized Neural Motion Fields [68.60019434498703]
ダイナミックなシーンで3Dの動きを知ることは、多くの視覚応用にとって不可欠である。
多視点設定における全ての点の運動を推定するために神経運動場を利用する。
予測可能な動きを正規化することを提案する。
論文 参考訳(メタデータ) (2022-09-21T22:32:37Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - A Framework for Multisensory Foresight for Embodied Agents [11.351546861334292]
将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。
本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。
このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
論文 参考訳(メタデータ) (2021-09-15T20:20:04Z) - Object and Relation Centric Representations for Push Effect Prediction [18.990827725752496]
プッシュは、プレグレープ操作からシーンアレンジメントまでのタスクに使用される、非包括的操作スキルである。
本稿では,プッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。
本フレームワークは,異なる種類の接合体と異なる質量を有する物体を介して接続された異なる形状の多部オブジェクトを含む実環境と模擬環境の両方で検証される。
論文 参考訳(メタデータ) (2021-02-03T15:09:12Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。