論文の概要: VSGM -- Enhance robot task understanding ability through visual semantic
graph
- arxiv url: http://arxiv.org/abs/2105.08959v1
- Date: Wed, 19 May 2021 07:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 19:08:33.778292
- Title: VSGM -- Enhance robot task understanding ability through visual semantic
graph
- Title(参考訳): VSGM --ビジュアルセマンティックグラフによるロボットタスク理解機能強化
- Authors: Cheng Yu Tsai and Mu-Chun Su
- Abstract要約: ロボットに視覚的意味論と言語意味論の理解を与えることにより、推論能力が向上すると考えられる。
本稿では,セマンティックグラフを用いて,より優れた視覚的特徴を得る手法であるVSGMを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, developing AI for robotics has raised much attention. The
interaction of vision and language of robots is particularly difficult. We
consider that giving robots an understanding of visual semantics and language
semantics will improve inference ability. In this paper, we propose a novel
method-VSGM (Visual Semantic Graph Memory), which uses the semantic graph to
obtain better visual image features, improve the robot's visual understanding
ability. By providing prior knowledge of the robot and detecting the objects in
the image, it predicts the correlation between the attributes of the object and
the objects and converts them into a graph-based representation; and mapping
the object in the image to be a top-down egocentric map. Finally, the important
object features of the current task are extracted by Graph Neural Networks. The
method proposed in this paper is verified in the ALFRED (Action Learning From
Realistic Environments and Directives) dataset. In this dataset, the robot
needs to perform daily indoor household tasks following the required language
instructions. After the model is added to the VSGM, the task success rate can
be improved by 6~10%.
- Abstract(参考訳): 近年,ロボット工学のためのai開発が注目されている。
ロボットの視覚と言語との相互作用は特に難しい。
視覚意味論と言語意味論をロボットに理解させると推論能力が向上すると考える。
本稿では,このセマンティックグラフを用いて,より優れた視覚的特徴を抽出し,ロボットの視覚的理解能力を向上させる手法であるVSGM(Visual Semantic Graph Memory)を提案する。
ロボットの事前の知識を提供し、画像中のオブジェクトを検出することにより、オブジェクトとオブジェクトの属性の相関を予測し、それらをグラフベースの表現に変換し、画像内のオブジェクトをトップダウンのエゴセントリックマップにマッピングする。
最後に、現在のタスクの重要なオブジェクトの特徴をグラフニューラルネットワークによって抽出する。
本稿では,alfred(action learning from real environment and directives)データセットを用いて,本手法の有効性を検証する。
このデータセットでは、ロボットは必要な言語指示に従って日々の家庭内タスクを実行する必要がある。
モデルがvsgmに追加されると、タスク成功率は6~10%向上する。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Graph Neural Networks for Relational Inductive Bias in Vision-based Deep
Reinforcement Learning of Robot Control [0.0]
この研究は、リレーショナル帰納バイアスと視覚フィードバックを組み合わせたニューラルネットワークアーキテクチャを導入し、効率的な位置制御ポリシーを学習する。
我々は、画像符号化ネットワークによって生成された視覚シーンの低次元記述を用いて、ロボットの内部状態をモデル化するグラフ表現を導出する。
視覚的に現実的な3D環境下での6-DoFロボットアームのサンプル効率を向上させるためのモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-03-11T15:11:54Z) - Reasoning with Scene Graphs for Robot Planning under Partial
Observability [7.121002367542985]
我々は,ロボットが視覚的文脈情報で推論できるロボット計画のためのシーン解析アルゴリズムを開発した。
シミュレーションで複数の3D環境と実際のロボットが収集したデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-21T18:45:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。