論文の概要: VSGM -- Enhance robot task understanding ability through visual semantic
graph
- arxiv url: http://arxiv.org/abs/2105.08959v1
- Date: Wed, 19 May 2021 07:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 19:08:33.778292
- Title: VSGM -- Enhance robot task understanding ability through visual semantic
graph
- Title(参考訳): VSGM --ビジュアルセマンティックグラフによるロボットタスク理解機能強化
- Authors: Cheng Yu Tsai and Mu-Chun Su
- Abstract要約: ロボットに視覚的意味論と言語意味論の理解を与えることにより、推論能力が向上すると考えられる。
本稿では,セマンティックグラフを用いて,より優れた視覚的特徴を得る手法であるVSGMを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, developing AI for robotics has raised much attention. The
interaction of vision and language of robots is particularly difficult. We
consider that giving robots an understanding of visual semantics and language
semantics will improve inference ability. In this paper, we propose a novel
method-VSGM (Visual Semantic Graph Memory), which uses the semantic graph to
obtain better visual image features, improve the robot's visual understanding
ability. By providing prior knowledge of the robot and detecting the objects in
the image, it predicts the correlation between the attributes of the object and
the objects and converts them into a graph-based representation; and mapping
the object in the image to be a top-down egocentric map. Finally, the important
object features of the current task are extracted by Graph Neural Networks. The
method proposed in this paper is verified in the ALFRED (Action Learning From
Realistic Environments and Directives) dataset. In this dataset, the robot
needs to perform daily indoor household tasks following the required language
instructions. After the model is added to the VSGM, the task success rate can
be improved by 6~10%.
- Abstract(参考訳): 近年,ロボット工学のためのai開発が注目されている。
ロボットの視覚と言語との相互作用は特に難しい。
視覚意味論と言語意味論をロボットに理解させると推論能力が向上すると考える。
本稿では,このセマンティックグラフを用いて,より優れた視覚的特徴を抽出し,ロボットの視覚的理解能力を向上させる手法であるVSGM(Visual Semantic Graph Memory)を提案する。
ロボットの事前の知識を提供し、画像中のオブジェクトを検出することにより、オブジェクトとオブジェクトの属性の相関を予測し、それらをグラフベースの表現に変換し、画像内のオブジェクトをトップダウンのエゴセントリックマップにマッピングする。
最後に、現在のタスクの重要なオブジェクトの特徴をグラフニューラルネットワークによって抽出する。
本稿では,alfred(action learning from real environment and directives)データセットを用いて,本手法の有効性を検証する。
このデータセットでは、ロボットは必要な言語指示に従って日々の家庭内タスクを実行する必要がある。
モデルがvsgmに追加されると、タスク成功率は6~10%向上する。
関連論文リスト
- Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Graph Neural Networks for Relational Inductive Bias in Vision-based Deep
Reinforcement Learning of Robot Control [0.0]
この研究は、リレーショナル帰納バイアスと視覚フィードバックを組み合わせたニューラルネットワークアーキテクチャを導入し、効率的な位置制御ポリシーを学習する。
我々は、画像符号化ネットワークによって生成された視覚シーンの低次元記述を用いて、ロボットの内部状態をモデル化するグラフ表現を導出する。
視覚的に現実的な3D環境下での6-DoFロボットアームのサンプル効率を向上させるためのモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-03-11T15:11:54Z) - Reasoning with Scene Graphs for Robot Planning under Partial
Observability [7.121002367542985]
我々は,ロボットが視覚的文脈情報で推論できるロボット計画のためのシーン解析アルゴリズムを開発した。
シミュレーションで複数の3D環境と実際のロボットが収集したデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-21T18:45:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - A Road-map to Robot Task Execution with the Functional Object-Oriented
Network [77.93376696738409]
関数型オブジェクト指向ネットワーク(FOON)はロボットの知識グラフ表現である。
FOONは、二部グラフの形で、ロボットの環境やタスクに対する理解に関係のある象徴的あるいは高レベルな情報を含んでいる。
論文 参考訳(メタデータ) (2021-06-01T00:43:04Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。