論文の概要: Interactive Visual Task Learning for Robots
- arxiv url: http://arxiv.org/abs/2312.13219v1
- Date: Wed, 20 Dec 2023 17:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:41:50.502219
- Title: Interactive Visual Task Learning for Robots
- Title(参考訳): ロボットのための対話型視覚タスク学習
- Authors: Weiwei Gu, Anant Sah, Nakul Gopalan
- Abstract要約: 本稿では,人間ユーザとの言語対話を通じて,ロボットが新しい視覚概念やタスクを学習するための枠組みを提案する。
概念階層内の親ノードに新しい概念の情報を付加するHi-Viscontを提案する。
視覚的なタスクを言語アノテーション付きシーングラフとして表現し、デモされたタスクゼロショットの新規な置換をin-situで作成する。
- 参考スコア(独自算出の注目度): 4.114444605090135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for robots to learn novel visual concepts and tasks
via in-situ linguistic interactions with human users. Previous approaches have
either used large pre-trained visual models to infer novel objects zero-shot,
or added novel concepts along with their attributes and representations to a
concept hierarchy. We extend the approaches that focus on learning visual
concept hierarchies by enabling them to learn novel concepts and solve unseen
robotics tasks with them. To enable a visual concept learner to solve robotics
tasks one-shot, we developed two distinct techniques. Firstly, we propose a
novel approach, Hi-Viscont(HIerarchical VISual CONcept learner for Task), which
augments information of a novel concept to its parent nodes within a concept
hierarchy. This information propagation allows all concepts in a hierarchy to
update as novel concepts are taught in a continual learning setting. Secondly,
we represent a visual task as a scene graph with language annotations, allowing
us to create novel permutations of a demonstrated task zero-shot in-situ. We
present two sets of results. Firstly, we compare Hi-Viscont with the baseline
model (FALCON) on visual question answering(VQA) in three domains. While being
comparable to the baseline model on leaf level concepts, Hi-Viscont achieves an
improvement of over 9% on non-leaf concepts on average. We compare our model's
performance against the baseline FALCON model. Our framework achieves 33%
improvements in success rate metric, and 19% improvements in the object level
accuracy compared to the baseline model. With both of these results we
demonstrate the ability of our model to learn tasks and concepts in a continual
learning setting on the robot.
- Abstract(参考訳): 本稿では,人間ユーザとの言語対話を通じて,ロボットが新しい視覚概念やタスクを学習するための枠組みを提案する。
以前のアプローチでは、新しいオブジェクトをゼロショットで推論するために、大きな事前訓練されたビジュアルモデルを使ったり、それらの属性と表現を概念階層に追加したりしてきた。
我々は,視覚概念階層を学習するアプローチを拡張し,新たな概念を学習し,ロボット工学の未熟な課題を解決する。
視覚概念学習者がロボットのタスクをワンショットで解くために,我々は2つの異なる手法を開発した。
まず,概念階層内の親ノードに新たな概念の情報を付加する手法として,hi-viscont(hierarchical visual concept learner for task)を提案する。
この情報伝達により、階層内のすべての概念が更新され、新しい概念が継続的な学習環境で教えられる。
第二に、視覚的なタスクを言語アノテーション付きシーングラフとして表現することで、デモされたタスクゼロショットの新規な置換をin-situで作成できる。
結果のセットを2つ提示する。
まず,Hu-Viscontとベースラインモデル(FALCON)を比較し,視覚的質問応答(VQA)を3つの領域で比較する。
リーフレベルの概念のベースラインモデルと比較すると、hi-viscontは平均で9%以上の改善を達成している。
我々のモデルのパフォーマンスをベースラインのファルコンモデルと比較する。
本フレームワークは,成功率指標の33%の改善と,ベースラインモデルと比較してオブジェクトレベルの精度の19%の改善を実現している。
これらの結果から,ロボット上での連続学習環境におけるタスクや概念の学習能力を示す。
関連論文リスト
- Theia: Distilling Diverse Vision Foundation Models for Robot Learning [6.709078873834651]
Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。
テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
論文 参考訳(メタデータ) (2024-07-29T17:08:21Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。