Fugu-MT 論文翻訳(概要): GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation

論文の概要: GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation

arxiv url: http://arxiv.org/abs/2307.05963v1
Date: Wed, 12 Jul 2023 07:12:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 13:59:51.487415
Title: GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation
Title（参考訳）: GVCCI:言語誘導型ロボットマニピュレーションのための視覚グラウンドの生涯学習
Authors: Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Suyeon Shin, Byoung-Tak Zhang
Abstract要約: Grounding Vision to Ceaselessly Created Instructions (GVCCI)は、言語誘導ロボットマニピュレーション(LGRM)のための生涯学習フレームワークである。 GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。実験の結果、GVCCIはVGを最大56.7%改善し、LGRMを最大29.4%改善することがわかった。
参考スコア（独自算出の注目度）: 20.041507826568093
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Language-Guided Robotic Manipulation (LGRM) is a challenging task as it requires a robot to understand human instructions to manipulate everyday objects. Recent approaches in LGRM rely on pre-trained Visual Grounding (VG) models to detect objects without adapting to manipulation environments. This results in a performance drop due to a substantial domain gap between the pre-training and real-world data. A straightforward solution is to collect additional training data, but the cost of human-annotation is extortionate. In this paper, we propose Grounding Vision to Ceaselessly Created Instructions (GVCCI), a lifelong learning framework for LGRM, which continuously learns VG without human supervision. GVCCI iteratively generates synthetic instruction via object detection and trains the VG model with the generated data. We validate our framework in offline and online settings across diverse environments on different VG models. Experimental results show that accumulating synthetic data from GVCCI leads to a steady improvement in VG by up to 56.7% and improves resultant LGRM by up to 29.4%. Furthermore, the qualitative analysis shows that the unadapted VG model often fails to find correct objects due to a strong bias learned from the pre-training data. Finally, we introduce a novel VG dataset for LGRM, consisting of nearly 252k triplets of image-object-instruction from diverse manipulation environments.
Abstract（参考訳）: 言語誘導型ロボットマニピュレーション(LGRM)は、日常の物体を操作するために人間の指示を理解するロボットを必要とするため、難しい課題である。 LGRMの最近のアプローチは、操作環境に適応せずにオブジェクトを検出するために、事前訓練されたビジュアルグラウンド(VG)モデルに依存している。これにより、事前トレーニングデータと実世界のデータの間にかなりのドメインギャップがあるため、パフォーマンスが低下する。簡単な解決策は、追加のトレーニングデータを集めることですが、人間アノテーションのコストはゆがみます。本稿では,lgrmのための生涯学習フレームワークgvcciに対して,人間の監督なしに連続的にvgを学習するグラウンディングビジョンを提案する。 GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。さまざまなVGモデル上で、さまざまな環境にわたってオフラインおよびオンライン設定でフレームワークを検証する。実験の結果、GVCCIから合成データを蓄積すると、VGは最大56.7%向上し、LGRMは最大29.4%改善した。さらに, 定性解析により, 未適応vgモデルでは, 事前学習データから学習したバイアスが強いため, 正しい物体を見つけることができない場合が多かった。最後に,多種多様な操作環境から252k以上の画像オブジェクトインストラクションからなるlgrm用の新しいvgデータセットを提案する。

関連論文リスト

Multi-Class Human/Object Detection on Robot Manipulators using Proprioceptive Sensing [0.0]
本研究の目的は,3種類の人・物検出モデルを評価し,より詳細な接触解析を行うことである。データセットはFranka Emika Pandaロボットマニピュレータを用いて収集され、時系列分析のための前処理戦略を探索した。最高の性能モデルは、リアルタイムテスト中に91.11%の精度を達成し、マルチクラス検出モデルの実現可能性を示した。
論文参考訳（メタデータ） (2025-08-04T13:45:37Z)
Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文参考訳（メタデータ） (2025-06-09T19:59:05Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文参考訳（メタデータ） (2024-09-21T08:45:16Z)
Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions [36.851214751652996]
本稿では、意図駆動型視覚接地(IVG)タスクを提案し、インテンションVGと呼ばれる大規模IVGデータセットを自由形式の意図表現で構築する。基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心の視点の両方において重要な特性を考慮に入れている。
論文参考訳（メタデータ） (2024-02-17T12:42:14Z)
Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文参考訳（メタデータ） (2023-07-23T17:55:24Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
One to Many: Adaptive Instrument Segmentation via Meta Learning and Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。 2つのデータセットで他の最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2021-03-24T05:02:18Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)
Improving the Performance of Fine-Grain Image Classifiers via Generative Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。 DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文参考訳（メタデータ） (2020-08-12T15:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。