論文の概要: Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2410.22707v1
- Date: Wed, 30 Oct 2024 05:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:59.924286
- Title: Robotic State Recognition with Image-to-Text Retrieval Task of Pre-Trained Vision-Language Model and Black-Box Optimization
- Title(参考訳): 事前学習型ビジョンランゲージモデルとブラックボックス最適化のための画像とテキストの検索タスクによるロボットの状態認識
- Authors: Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba,
- Abstract要約: 本稿では,事前学習された視覚言語モデルを用いたロボット状態認識手法を提案する。
透明扉の開閉状態、蛇口から水が流れているか否か、キッチンがきれいかどうかの定性的状態さえ認識することができる。
- 参考スコア(独自算出の注目度): 17.164384202639496
- License:
- Abstract: State recognition of the environment and objects, such as the open/closed state of doors and the on/off of lights, is indispensable for robots that perform daily life support and security tasks. Until now, state recognition methods have been based on training neural networks from manual annotations, preparing special sensors for the recognition, or manually programming to extract features from point clouds or raw images. In contrast, we propose a robotic state recognition method using a pre-trained vision-language model, which is capable of Image-to-Text Retrieval (ITR) tasks. We prepare several kinds of language prompts in advance, calculate the similarity between these prompts and the current image by ITR, and perform state recognition. By applying the optimal weighting to each prompt using black-box optimization, state recognition can be performed with higher accuracy. Experiments show that this theory enables a variety of state recognitions by simply preparing multiple prompts without retraining neural networks or manual programming. In addition, since only prompts and their weights need to be prepared for each recognizer, there is no need to prepare multiple models, which facilitates resource management. It is possible to recognize the open/closed state of transparent doors, the state of whether water is running or not from a faucet, and even the qualitative state of whether a kitchen is clean or not, which have been challenging so far, through language.
- Abstract(参考訳): ドアの開閉状態や照明のオン/オフといった環境や物体の状態認識は、日々の生活支援やセキュリティタスクを行うロボットにとって不可欠である。
これまで、状態認識方法は、手動のアノテーションからニューラルネットワークをトレーニングしたり、認識のための特別なセンサーを準備したり、ポイントクラウドや生画像から特徴を抽出するために手動でプログラミングしたりしてきた。
対照的に,画像からテキストへの検索(ITR)処理が可能な事前学習型視覚言語モデルを用いたロボット状態認識手法を提案する。
我々は事前にいくつかの言語プロンプトを作成し、ITRによりこれらのプロンプトと現在の画像との類似性を計算し、状態認識を行う。
ブラックボックス最適化を用いて各プロンプトに最適な重み付けを適用することにより、より高い精度で状態認識を行うことができる。
この理論は、ニューラルネットワークや手動プログラミングを再訓練することなく、複数のプロンプトを単に準備することで、様々な状態認識を可能にすることを示す実験である。
さらに、各認識者に対してプロンプトとウェイトのみを準備する必要があるため、リソース管理を容易にする複数のモデルを作成する必要はない。
透明扉の開閉状態、蛇口から水が流れているか否か、キッチンがきれいであるか否かの質的状態さえも言語を介して認識することができる。
関連論文リスト
- Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization [17.164384202639496]
音声言語によるロボットの環境認識を統一的に行う。
部屋のドアが開閉されているだけでなく、透明なドアが開閉されているかどうかを認識できることを示す。
本研究では,本手法の有効性を実験的に実証し,移動ロボットFetchの認識行動に適用する。
論文 参考訳(メタデータ) (2024-09-26T04:02:20Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Continuous Object State Recognition for Cooking Robots Using Pre-Trained
Vision-Language Models and Black-box Optimization [18.41474014665171]
本稿では,ロボットを調理する際の食品の状態変化を音声言語で認識する手法を提案する。
各テキストの重み付けを調整することで、より正確で堅牢な連続状態認識を実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-13T04:45:40Z) - Deep Learning-based Spatio Temporal Facial Feature Visual Speech
Recognition [0.0]
パスワードをしゃべりながら、顔認識と個人特有の時間的顔の特徴的動作を併用する代替認証方式を提案する。
提案されたモデルは、業界標準のMIRACL-VC1データセットでテストしたときに96.1%の精度を達成した。
論文 参考訳(メタデータ) (2023-04-30T18:52:29Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Multi-modal embeddings using multi-task learning for emotion recognition [20.973999078271483]
word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。
自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャまで、作業を拡張します。
論文 参考訳(メタデータ) (2020-09-10T17:33:16Z) - Online Visual Place Recognition via Saliency Re-identification [26.209412893744094]
既存の手法はしばしば特徴マッチングとして視覚的位置認識を定式化する。
人間は常に聖域やランドマークを記憶することで場所を認識するという事実に触発され、私たちは視覚的場所認識を聖域再識別として定式化する。
一方、周波数領域における正当性検出と再同定の両方を行い、全ての操作を要素的に行うことを提案する。
論文 参考訳(メタデータ) (2020-07-29T01:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。