論文の概要: GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2307.05963v1
- Date: Wed, 12 Jul 2023 07:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:59:51.487415
- Title: GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic
Manipulation
- Title(参考訳): GVCCI:言語誘導型ロボットマニピュレーションのための視覚グラウンドの生涯学習
- Authors: Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Suyeon Shin, Byoung-Tak Zhang
- Abstract要約: Grounding Vision to Ceaselessly Created Instructions (GVCCI)は、言語誘導ロボットマニピュレーション(LGRM)のための生涯学習フレームワークである。
GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。
実験の結果、GVCCIはVGを最大56.7%改善し、LGRMを最大29.4%改善することがわかった。
- 参考スコア(独自算出の注目度): 20.041507826568093
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language-Guided Robotic Manipulation (LGRM) is a challenging task as it
requires a robot to understand human instructions to manipulate everyday
objects. Recent approaches in LGRM rely on pre-trained Visual Grounding (VG)
models to detect objects without adapting to manipulation environments. This
results in a performance drop due to a substantial domain gap between the
pre-training and real-world data. A straightforward solution is to collect
additional training data, but the cost of human-annotation is extortionate. In
this paper, we propose Grounding Vision to Ceaselessly Created Instructions
(GVCCI), a lifelong learning framework for LGRM, which continuously learns VG
without human supervision. GVCCI iteratively generates synthetic instruction
via object detection and trains the VG model with the generated data. We
validate our framework in offline and online settings across diverse
environments on different VG models. Experimental results show that
accumulating synthetic data from GVCCI leads to a steady improvement in VG by
up to 56.7% and improves resultant LGRM by up to 29.4%. Furthermore, the
qualitative analysis shows that the unadapted VG model often fails to find
correct objects due to a strong bias learned from the pre-training data.
Finally, we introduce a novel VG dataset for LGRM, consisting of nearly 252k
triplets of image-object-instruction from diverse manipulation environments.
- Abstract(参考訳): 言語誘導型ロボットマニピュレーション(LGRM)は、日常の物体を操作するために人間の指示を理解するロボットを必要とするため、難しい課題である。
LGRMの最近のアプローチは、操作環境に適応せずにオブジェクトを検出するために、事前訓練されたビジュアルグラウンド(VG)モデルに依存している。
これにより、事前トレーニングデータと実世界のデータの間にかなりのドメインギャップがあるため、パフォーマンスが低下する。
簡単な解決策は、追加のトレーニングデータを集めることですが、人間アノテーションのコストはゆがみます。
本稿では,lgrmのための生涯学習フレームワークgvcciに対して,人間の監督なしに連続的にvgを学習するグラウンディングビジョンを提案する。
GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。
さまざまなVGモデル上で、さまざまな環境にわたってオフラインおよびオンライン設定でフレームワークを検証する。
実験の結果、GVCCIから合成データを蓄積すると、VGは最大56.7%向上し、LGRMは最大29.4%改善した。
さらに, 定性解析により, 未適応vgモデルでは, 事前学習データから学習したバイアスが強いため, 正しい物体を見つけることができない場合が多かった。
最後に,多種多様な操作環境から252k以上の画像オブジェクトインストラクションからなるlgrm用の新しいvgデータセットを提案する。
関連論文リスト
- CogCoM: Train Large Vision-Language Models Diving into Details through
Chain of Manipulations [63.04131413124456]
チェーン・オブ・マニピュレーション(Chain of Manipulations)は、ビジョンランゲージモデル(Vision-Language Models)が一連の操作で問題を解決するメカニズムである。
我々は、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。
実験により,本モデルが3つのカテゴリから8つのベンチマークにまたがって,最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Visual Geo-localization with Self-supervised Representation Learning [8.642591824865892]
大規模なビジュアルジオローカライゼーションデータセットの性能向上とトレーニングの効率化を目的として,新しい統合VG-SSLフレームワークを提案する。
我々の作業には、VG用に調整された複数のSSLメソッド、SimCLR、MoCov2、BYOL、SimSiam、Barlow Twins、VICRegが組み込まれています。
論文 参考訳(メタデータ) (2023-07-31T19:03:13Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。