論文の概要: Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception
- arxiv url: http://arxiv.org/abs/2308.16493v1
- Date: Thu, 31 Aug 2023 06:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 15:33:03.075030
- Title: Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception
- Title(参考訳): トレーニングなしの凍結視覚言語モデルの拡張:ロボット知覚の改善に向けて
- Authors: Riley Tavassoli, Mani Amani, Reza Akhavian
- Abstract要約: 視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown powerful capabilities in visual
question answering and reasoning tasks by combining visual representations with
the abstract skill set large language models (LLMs) learn during pretraining.
Vision, while the most popular modality to augment LLMs with, is only one
representation of a scene. In human-robot interaction scenarios, robot
perception requires accurate scene understanding by the robot. In this paper,
we define and demonstrate a method of aligning the embedding spaces of
different modalities (in this case, inertial measurement unit (IMU) data) to
the vision embedding space through a combination of supervised and contrastive
training, enabling the VLM to understand and reason about these additional
modalities without retraining. We opt to give the model IMU embeddings directly
over using a separate human activity recognition model that feeds directly into
the prompt to allow for any nonlinear interactions between the query, image,
and IMU signal that would be lost by mapping the IMU data to a discrete
activity label. Further, we demonstrate our methodology's efficacy through
experiments involving human activity recognition using IMU data and visual
inputs. Our results show that using multiple modalities as input improves the
VLM's scene understanding and enhances its overall performance in various
tasks, thus paving the way for more versatile and capable language models in
multi-modal contexts.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的表現と、事前学習中に学習する抽象的な言語モデル(LLM)を組み合わせることで、視覚的質問応答や推論タスクにおいて強力な能力を示している。
視覚は、LLMを拡張するための最も一般的なモダリティであるが、シーンの1つの表現にすぎない。
人間とロボットの相互作用シナリオでは、ロボットの知覚はロボットによる正確なシーン理解を必要とする。
本稿では,異なるモダリティの埋め込み空間(この場合,慣性測定ユニット(IMU)データ)を教師付きおよびコントラスト的学習の組み合わせによって視覚埋め込み空間に整列させる手法を定義し,VLMがこれらの追加モダリティを再学習することなく理解し,推論できるようにする。
我々は、IMUデータを個別のアクティビティラベルにマッピングすることで失われるクエリ、画像、IMU信号間の非線形相互作用を許可するために、直接プロンプトにフィードする別個のヒューマンアクティビティ認識モデルを用いて、IMU埋め込みモデルを直接提供することを選択した。
さらに、IMUデータと視覚入力を用いた人間の活動認識実験を通して、方法論の有効性を実証する。
その結果,複数のモダリティを入力として使用することで,vlmのシーン理解が向上し,様々なタスクにおける全体的なパフォーマンスが向上し,マルチモーダルなコンテキストにおけるより汎用的で有能な言語モデルへの道が開けた。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。