論文の概要: MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable
Trajectory Generation
- arxiv url: http://arxiv.org/abs/2311.08393v2
- Date: Sat, 18 Nov 2023 21:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:19:59.355940
- Title: MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable
Trajectory Generation
- Title(参考訳): MVSA-Net:ロバストかつ展開可能な軌道生成のための多視点状態認識
- Authors: Ehsan Asali, Prashant Doshi, Jin Sun
- Abstract要約: LfOパラダイム(Learning-from-observation、LfO)は、ロボットが実行されているのを見るだけでタスクを実行することを学ぶための、人間にインスパイアされたモードである。
タスクアクティビティの複数の視点を認識できるように,SA-Netモデルを一般化したマルチビューSA-Netを提案する。
- 参考スコア(独自算出の注目度): 6.780272343971868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learn-from-observation (LfO) paradigm is a human-inspired mode for a
robot to learn to perform a task simply by watching it being performed. LfO can
facilitate robot integration on factory floors by minimizing disruption and
reducing tedious programming. A key component of the LfO pipeline is a
transformation of the depth camera frames to the corresponding task state and
action pairs, which are then relayed to learning techniques such as imitation
or inverse reinforcement learning for understanding the task parameters. While
several existing computer vision models analyze videos for activity
recognition, SA-Net specifically targets robotic LfO from RGB-D data. However,
SA-Net and many other models analyze frame data captured from a single
viewpoint. Their analysis is therefore highly sensitive to occlusions of the
observed task, which are frequent in deployments. An obvious way of reducing
occlusions is to simultaneously observe the task from multiple viewpoints and
synchronously fuse the multiple streams in the model. Toward this, we present
multi-view SA-Net, which generalizes the SA-Net model to allow the perception
of multiple viewpoints of the task activity, integrate them, and better
recognize the state and action in each frame. Performance evaluations on two
distinct domains establish that MVSA-Net recognizes the state-action pairs
under occlusion more accurately compared to single-view MVSA-Net and other
baselines. Our ablation studies further evaluate its performance under
different ambient conditions and establish the contribution of the architecture
components. As such, MVSA-Net offers a significantly more robust and deployable
state-action trajectory generation compared to previous methods.
- Abstract(参考訳): learn-from-observation(lfo)パラダイムは、ロボットが単に実行されているのを見てタスクを実行することを学ぶための人間にインスパイアされたモードである。
LfOは、破壊を最小限に抑え、退屈なプログラミングを減らすことで、工場のフロアでのロボット統合を容易にする。
LfOパイプラインのキーコンポーネントは、深度カメラフレームを対応するタスク状態とアクションペアに変換し、模倣や逆強化学習などの学習技術に中継してタスクパラメータを理解することである。
いくつかの既存のコンピュータビジョンモデルは、活動認識のためにビデオを分析するが、SA-Netは特にRGB-DデータからロボットLfOをターゲットにしている。
しかし、SA-Netや他の多くのモデルでは、単一の視点から取得したフレームデータを分析している。
したがって、それらの分析は、頻繁に展開される観察されたタスクのオクルージョンに非常に敏感である。
閉塞を減らす明確な方法は、タスクを複数の視点から同時に観察し、モデル内の複数のストリームを同期的に融合させることである。
そこで本研究では,タスクアクティビティの複数の視点を認識できるようにSA-Netモデルを一般化し,それらを統合し,各フレームの状態や動作をよりよく認識する多視点SA-Netを提案する。
2つの異なるドメインのパフォーマンス評価では、MVSA-Netは単一ビューのMVSA-Netや他のベースラインに比べて、より正確に状態-作用対を認識する。
アブレーション研究は, 異なる環境条件下での性能をさらに評価し, アーキテクチャコンポーネントの寄与性を確立する。
そのため、MVSA-Netは従来の方法に比べてはるかに堅牢で、デプロイ可能な状態-作用軌道生成を提供する。
関連論文リスト
- SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation [7.544917072241684]
ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-18T14:31:15Z) - SVAM: Saliency-guided Visual Attention Modeling by Autonomous Underwater
Robots [16.242924916178282]
本稿では,自律型水中ロボットの視覚的注意モデル(SVAM)に対する総合的なアプローチを提案する。
提案するSVAM-Netは,様々なスケールの深部視覚的特徴を統合し,自然水中画像に有効なSOD(Salient Object Detection)を実現する。
論文 参考訳(メタデータ) (2020-11-12T08:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。