論文の概要: A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction
- arxiv url: http://arxiv.org/abs/2110.13280v1
- Date: Mon, 25 Oct 2021 21:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:43:53.763591
- Title: A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction
- Title(参考訳): 操作動作認識と予測のための変分グラフオートエンコーダ
- Authors: Gamze Akyol, Sanem Sariel, Eren Erdal Aksoy
- Abstract要約: シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 1.1816942730023883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite decades of research, understanding human manipulation activities is,
and has always been, one of the most attractive and challenging research topics
in computer vision and robotics. Recognition and prediction of observed human
manipulation actions have their roots in the applications related to, for
instance, human-robot interaction and robot learning from demonstration. The
current research trend heavily relies on advanced convolutional neural networks
to process the structured Euclidean data, such as RGB camera images. These
networks, however, come with immense computational complexity to be able to
process high dimensional raw data.
Different from the related works, we here introduce a deep graph autoencoder
to jointly learn recognition and prediction of manipulation tasks from symbolic
scene graphs, instead of relying on the structured Euclidean data. Our network
has a variational autoencoder structure with two branches: one for identifying
the input graph type and one for predicting the future graphs. The input of the
proposed network is a set of semantic graphs which store the spatial relations
between subjects and objects in the scene. The network output is a label set
representing the detected and predicted class types. We benchmark our new model
against different state-of-the-art methods on two different datasets, MANIAC
and MSRC-9, and show that our proposed model can achieve better performance. We
also release our source code https://github.com/gamzeakyol/GNet.
- Abstract(参考訳): 数十年にわたる研究にもかかわらず、人間の操作活動を理解することは、コンピュータビジョンとロボティクスにおける最も魅力的で挑戦的な研究の1つだ。
観察された人間の操作行動の認識と予測は、例えば人間とロボットの相互作用やデモからのロボット学習に関連する応用にルーツを持つ。
現在の研究トレンドは、RGBカメラ画像のような構造化ユークリッドデータを処理するための高度な畳み込みニューラルネットワークに大きく依存している。
しかし、これらのネットワークには高次元の生データを処理できる膨大な計算量がある。
関連する作業とは違って,構造化ユークリッドデータに頼るのではなく,記号的シーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを導入する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案するネットワークの入力は、シーン内の被写体とオブジェクト間の空間関係を記憶するセマンティックグラフの集合である。
ネットワーク出力は、検出および予測されたクラスタイプを表すラベルセットである。
maniacとmsrc-9という2つの異なるデータセット上で,新たなモデルを最先端のメソッドに対してベンチマークし,提案手法が優れた性能を実現することを示す。
ソースコード https://github.com/gamzeakyol/GNet もリリースしています。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Automatic Relation-aware Graph Network Proliferation [182.30735195376792]
GNNを効率的に検索するためのARGNP(Automatic Relation-Aware Graph Network Proliferation)を提案する。
これらの操作は階層的なノード/リレーショナル情報を抽出し、グラフ上のメッセージパッシングのための異方的ガイダンスを提供する。
4つのグラフ学習タスクのための6つのデータセットの実験により、我々の手法によって生成されたGNNは、現在最先端の手作りおよび検索に基づくGNNよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-05-31T10:38:04Z) - Graph similarity learning for change-point detection in dynamic networks [15.694880385913534]
グラフスナップショットの時間的シーケンスである動的ネットワークについて考察する。
このタスクは、しばしばネットワーク変更点検出と呼ばれ、不正検出や物理モーションモニタリングといった多くの応用がある。
我々は、特定のネットワーク領域に適応し、変更を遅延なくローカライズできるオンラインネットワーク変更点検出法を設計する。
論文 参考訳(メタデータ) (2022-03-29T12:16:38Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Variational models for signal processing with Graph Neural Networks [3.5939555573102853]
本稿では,ニューラルネットワークを用いた点雲の信号処理について述べる。
本研究では,このようなグラフニューラルネットワークの変分モデルを用いて,教師なし学習のためのグラフ上の信号を処理する方法を検討する。
論文 参考訳(メタデータ) (2021-03-30T13:31:11Z) - TactileSGNet: A Spiking Graph Neural Network for Event-based Tactile
Object Recognition [17.37142241982902]
フレキシブルでイベント駆動の電子スキンの新しい進歩は、すぐに人間に似たタッチ認識能力を持つロボットを養うかもしれない。
これらのユニークな特徴は、触覚学習には適さない畳み込み特徴抽出器のような、現在のディープラーニングアプローチをもたらす可能性がある。
イベントベース触覚物体認識のための新しいスパイキンググラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-01T03:35:15Z) - GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。
自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。
3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-06-17T16:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。