論文の概要: Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2409.17519v1
- Date: Thu, 26 Sep 2024 04:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:06:47.882346
- Title: Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization
- Title(参考訳): 事前学習型ビジョンランゲージモデルとブラックボックス最適化を用いたロボット環境認識
- Authors: Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba,
- Abstract要約: 音声言語によるロボットの環境認識を統一的に行う。
部屋のドアが開閉されているだけでなく、透明なドアが開閉されているかどうかを認識できることを示す。
本研究では,本手法の有効性を実験的に実証し,移動ロボットFetchの認識行動に適用する。
- 参考スコア(独自算出の注目度): 17.164384202639496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for robots to autonomously navigate and operate in diverse environments, it is essential for them to recognize the state of their environment. On the other hand, the environmental state recognition has traditionally involved distinct methods tailored to each state to be recognized. In this study, we perform a unified environmental state recognition for robots through the spoken language with pre-trained large-scale vision-language models. We apply Visual Question Answering and Image-to-Text Retrieval, which are tasks of Vision-Language Models. We show that with our method, it is possible to recognize not only whether a room door is open/closed, but also whether a transparent door is open/closed and whether water is running in a sink, without training neural networks or manual programming. In addition, the recognition accuracy can be improved by selecting appropriate texts from the set of prepared texts based on black-box optimization. For each state recognition, only the text set and its weighting need to be changed, eliminating the need to prepare multiple different models and programs, and facilitating the management of source code and computer resource. We experimentally demonstrate the effectiveness of our method and apply it to the recognition behavior on a mobile robot, Fetch.
- Abstract(参考訳): ロボットが様々な環境で自律的にナビゲートし、操作するためには、ロボットが環境の状態を認識することが不可欠である。
一方、環境状態認識には、従来、各州に合わせた個別の方法が関係していた。
本研究では,ロボットに対して,事前学習した大規模視覚言語モデルを用いた音声言語を用いて,統合された環境認識を行う。
視覚言語モデルのタスクである視覚質問応答と画像からテキストへの検索を応用する。
提案手法では, 室内扉が開閉されているだけでなく, 透明扉が開閉されているか, 水がシンク内を流れているか, ニューラルネットワークや手動プログラミングを訓練せずに認識できることを示す。
さらに、ブラックボックス最適化に基づいて、用意されたテキストセットから適切なテキストを選択することにより、認識精度を向上させることができる。
各状態認識では、テキストセットとその重み付けだけを変更する必要があり、複数の異なるモデルやプログラムを準備する必要がなくなり、ソースコードとコンピュータリソースの管理が容易になる。
本研究では,本手法の有効性を実験的に実証し,移動ロボットFetchの認識動作に適用する。
関連論文リスト
- Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization [17.164384202639496]
本稿では,事前学習された視覚言語モデルを用いたロボット状態認識手法を提案する。
透明扉の開閉状態、蛇口から水が流れているか否か、キッチンがきれいかどうかの定性的状態さえ認識することができる。
論文 参考訳(メタデータ) (2024-10-30T05:34:52Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Language Understanding for Field and Service Robots in a Priori Unknown
Environments [29.16936249846063]
本稿では,フィールドロボットとサービスロボットによる自然言語命令の解釈と実行を可能にする,新しい学習フレームワークを提案する。
自然言語の発話において、空間的、位相的、意味的な情報を暗黙的に推測する。
本研究では,この分布を確率論的言語基底モデルに組み込んで,ロボットの行動空間のシンボル表現上の分布を推定する。
論文 参考訳(メタデータ) (2021-05-21T15:13:05Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Multi-modal embeddings using multi-task learning for emotion recognition [20.973999078271483]
word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。
自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャまで、作業を拡張します。
論文 参考訳(メタデータ) (2020-09-10T17:33:16Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。