論文の概要: GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2307.05963v1
- Date: Wed, 12 Jul 2023 07:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:59:51.487415
- Title: GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic
Manipulation
- Title(参考訳): GVCCI:言語誘導型ロボットマニピュレーションのための視覚グラウンドの生涯学習
- Authors: Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Suyeon Shin, Byoung-Tak Zhang
- Abstract要約: Grounding Vision to Ceaselessly Created Instructions (GVCCI)は、言語誘導ロボットマニピュレーション(LGRM)のための生涯学習フレームワークである。
GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。
実験の結果、GVCCIはVGを最大56.7%改善し、LGRMを最大29.4%改善することがわかった。
- 参考スコア(独自算出の注目度): 20.041507826568093
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language-Guided Robotic Manipulation (LGRM) is a challenging task as it
requires a robot to understand human instructions to manipulate everyday
objects. Recent approaches in LGRM rely on pre-trained Visual Grounding (VG)
models to detect objects without adapting to manipulation environments. This
results in a performance drop due to a substantial domain gap between the
pre-training and real-world data. A straightforward solution is to collect
additional training data, but the cost of human-annotation is extortionate. In
this paper, we propose Grounding Vision to Ceaselessly Created Instructions
(GVCCI), a lifelong learning framework for LGRM, which continuously learns VG
without human supervision. GVCCI iteratively generates synthetic instruction
via object detection and trains the VG model with the generated data. We
validate our framework in offline and online settings across diverse
environments on different VG models. Experimental results show that
accumulating synthetic data from GVCCI leads to a steady improvement in VG by
up to 56.7% and improves resultant LGRM by up to 29.4%. Furthermore, the
qualitative analysis shows that the unadapted VG model often fails to find
correct objects due to a strong bias learned from the pre-training data.
Finally, we introduce a novel VG dataset for LGRM, consisting of nearly 252k
triplets of image-object-instruction from diverse manipulation environments.
- Abstract(参考訳): 言語誘導型ロボットマニピュレーション(LGRM)は、日常の物体を操作するために人間の指示を理解するロボットを必要とするため、難しい課題である。
LGRMの最近のアプローチは、操作環境に適応せずにオブジェクトを検出するために、事前訓練されたビジュアルグラウンド(VG)モデルに依存している。
これにより、事前トレーニングデータと実世界のデータの間にかなりのドメインギャップがあるため、パフォーマンスが低下する。
簡単な解決策は、追加のトレーニングデータを集めることですが、人間アノテーションのコストはゆがみます。
本稿では,lgrmのための生涯学習フレームワークgvcciに対して,人間の監督なしに連続的にvgを学習するグラウンディングビジョンを提案する。
GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。
さまざまなVGモデル上で、さまざまな環境にわたってオフラインおよびオンライン設定でフレームワークを検証する。
実験の結果、GVCCIから合成データを蓄積すると、VGは最大56.7%向上し、LGRMは最大29.4%改善した。
さらに, 定性解析により, 未適応vgモデルでは, 事前学習データから学習したバイアスが強いため, 正しい物体を見つけることができない場合が多かった。
最後に,多種多様な操作環境から252k以上の画像オブジェクトインストラクションからなるlgrm用の新しいvgデータセットを提案する。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions [36.851214751652996]
本稿では、意図駆動型視覚接地(IVG)タスクを提案し、インテンションVGと呼ばれる大規模IVGデータセットを自由形式の意図表現で構築する。
基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心の視点の両方において重要な特性を考慮に入れている。
論文 参考訳(メタデータ) (2024-02-17T12:42:14Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。