論文の概要: GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games
- arxiv url: http://arxiv.org/abs/2405.13751v1
- Date: Wed, 22 May 2024 15:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:25:17.884264
- Title: GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games
- Title(参考訳): GameVLM:視覚言語モデルとゼロサムゲームに基づくロボットタスク計画のための意思決定フレームワーク
- Authors: Aoran Mei, Jianhua Wang, Guo-Niu Zhu, Zhongxue Gan,
- Abstract要約: 本稿では,ロボット作業計画における意思決定プロセスを強化するためのマルチエージェントフレームワークであるGameVLMを提案する。
VLMに基づく意思決定とエキスパートエージェントがタスク計画を行うために提示され、具体的にはタスク計画に決定エージェントが使用され、専門家エージェントがこれらのタスク計画を評価するために使用される。
- 参考スコア(独自算出の注目度): 7.5757016008687454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With their prominent scene understanding and reasoning capabilities, pre-trained visual-language models (VLMs) such as GPT-4V have attracted increasing attention in robotic task planning. Compared with traditional task planning strategies, VLMs are strong in multimodal information parsing and code generation and show remarkable efficiency. Although VLMs demonstrate great potential in robotic task planning, they suffer from challenges like hallucination, semantic complexity, and limited context. To handle such issues, this paper proposes a multi-agent framework, i.e., GameVLM, to enhance the decision-making process in robotic task planning. In this study, VLM-based decision and expert agents are presented to conduct the task planning. Specifically, decision agents are used to plan the task, and the expert agent is employed to evaluate these task plans. Zero-sum game theory is introduced to resolve inconsistencies among different agents and determine the optimal solution. Experimental results on real robots demonstrate the efficacy of the proposed framework, with an average success rate of 83.3%.
- Abstract(参考訳): GPT-4Vのような事前訓練された視覚言語モデル(VLM)は、シーン理解と推論能力に優れており、ロボットタスク計画において注目を集めている。
従来のタスク計画戦略と比較して、VLMはマルチモーダル情報解析やコード生成に優れており、顕著な効率性を示している。
VLMはロボットタスク計画において大きな可能性を示すが、幻覚、意味複雑性、限られたコンテキストといった課題に悩まされる。
このような問題に対処するため,本研究では,ロボット作業計画における意思決定プロセスを強化するためのマルチエージェントフレームワークであるGameVLMを提案する。
本研究では,VLMに基づく意思決定と専門家エージェントによるタスクプランニングの実施について述べる。
具体的には、意思決定エージェントがタスク計画に使用され、専門家エージェントがこれらのタスク計画を評価するために使用される。
ゼロサムゲーム理論は、異なるエージェント間の矛盾を解消し、最適解を決定するために導入された。
実ロボット実験の結果,提案手法の有効性が示され,平均成功率は83.3%であった。
関連論文リスト
- WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning [9.31108717722043]
視覚言語モデル(VLM)はロボットのタスク計画問題に適用されている。
DKPROMPTは、オープンワールドにおける古典的計画のためのPDDLにおけるドメイン知識の利用を促すVLMを自動化する。
論文 参考訳(メタデータ) (2024-06-25T15:49:47Z) - A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models [15.874604623294427]
マルチパス計画問題には、アウトライン、情報収集、計画といった複数の相互接続ステージが含まれる。
既存の推論アプローチは、この複雑なタスクを効果的に解決するのに苦労しています。
本研究は,LLMエージェントのためのヒューマンライクな計画フレームワークを開発することで,この問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-05-28T14:13:32Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。
提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。
我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文 参考訳(メタデータ) (2024-02-23T15:02:44Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Robot Task Planning Based on Large Language Model Representing Knowledge
with Directed Graph Structures [2.3698227130544547]
本研究では,人間の専門知識をLLMと組み合わせたタスクプランニング手法を提案し,LLMプロンプトテンプレートであるThink_Net_Promptを設計した。
さらに,タスクを段階的に分解し,タスクツリーを生成して各タスクの計画量を削減する手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:10:00Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。