論文の概要: Enhancing Robotic Manipulation with AI Feedback from Multimodal Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.14245v1
- Date: Thu, 22 Feb 2024 03:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:30:39.106056
- Title: Enhancing Robotic Manipulation with AI Feedback from Multimodal Large
Language Models
- Title(参考訳): マルチモーダル大言語モデルからのAIフィードバックによるロボットマニピュレーションの強化
- Authors: Jinyi Liu, Yifu Yuan, Jianye Hao, Fei Ni, Lingzhi Fu, Yibin Chen, Yan
Zheng
- Abstract要約: 大規模言語モデル(LLM)は、画像入力から意思決定のガイドまで、自動的な好みフィードバックを提供する。
本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLMであるCriticGPTを訓練する。
アルゴリズムの選好精度を実験的に評価すると、新しいタスクに対する効果的な一般化能力が示される。
Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
- 参考スコア(独自算出の注目度): 41.38520841504846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been considerable attention towards leveraging large
language models (LLMs) to enhance decision-making processes. However, aligning
the natural language text instructions generated by LLMs with the vectorized
operations required for execution presents a significant challenge, often
necessitating task-specific details. To circumvent the need for such
task-specific granularity, inspired by preference-based policy learning
approaches, we investigate the utilization of multimodal LLMs to provide
automated preference feedback solely from image inputs to guide
decision-making. In this study, we train a multimodal LLM, termed CriticGPT,
capable of understanding trajectory videos in robot manipulation tasks, serving
as a critic to offer analysis and preference feedback. Subsequently, we
validate the effectiveness of preference labels generated by CriticGPT from a
reward modeling perspective. Experimental evaluation of the algorithm's
preference accuracy demonstrates its effective generalization ability to new
tasks. Furthermore, performance on Meta-World tasks reveals that CriticGPT's
reward model efficiently guides policy learning, surpassing rewards based on
state-of-the-art pre-trained representation models.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を活用した意思決定プロセスの強化に注目が集まっている。
しかしながら、llmsが生成する自然言語テキスト命令と実行に必要なベクタ化操作との整合は大きな課題であり、タスク固有の詳細を必要とすることが多い。
選好に基づく政策学習アプローチに触発されたタスク固有の粒度の必要性を回避するために,画像入力からのみ選択フィードバックを自動提供するためのマルチモーダルllmの利用について検討する。
本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLM「CriticGPT」を訓練し,分析と嗜好フィードバックを提供する批評家として機能する。
次に,評価モデルの観点から,レビューgptが生成する選好ラベルの有効性を検証する。
アルゴリズムの選好精度の実験的評価は、新しいタスクに対する効果的な一般化能力を示している。
さらに、Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。
FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。
その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。