論文の概要: ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities
- arxiv url: http://arxiv.org/abs/2410.03907v1
- Date: Fri, 4 Oct 2024 20:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:31:01.544644
- Title: ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities
- Title(参考訳): ActPlan-1K: 家庭活動における視覚言語モデルの手続き計画能力のベンチマーク
- Authors: Ying Su, Zhan Ling, Haochen Shi, Jiayang Cheng, Yauwai Yim, Yangqiu Song,
- Abstract要約: ActPlan-1KはChatGPTと家庭用アクティビティシミュレータiGibson2に基づいて構築されたマルチモーダル計画ベンチマークである。
現在のVLMは、正常な活動と反現実的な活動の両方のために、人間レベルの手続き的な計画を作成するのに苦戦していることが判明した。
- 参考スコア(独自算出の注目度): 42.17465719784928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models~(LLMs) have been adopted to process textual task description and accomplish procedural planning in embodied AI tasks because of their powerful reasoning ability. However, there is still lack of study on how vision language models~(VLMs) behave when multi-modal task inputs are considered. Counterfactual planning that evaluates the model's reasoning ability over alternative task situations are also under exploited. In order to evaluate the planning ability of both multi-modal and counterfactual aspects, we propose ActPlan-1K. ActPlan-1K is a multi-modal planning benchmark constructed based on ChatGPT and household activity simulator iGibson2. The benchmark consists of 153 activities and 1,187 instances. Each instance describing one activity has a natural language task description and multiple environment images from the simulator. The gold plan of each instance is action sequences over the objects in provided scenes. Both the correctness and commonsense satisfaction are evaluated on typical VLMs. It turns out that current VLMs are still struggling at generating human-level procedural plans for both normal activities and counterfactual activities. We further provide automatic evaluation metrics by finetuning over BLEURT model to facilitate future research on our benchmark.
- Abstract(参考訳): 大規模言語モデル~(LLM)は、その強力な推論能力のために、テキストタスク記述の処理と、具体化されたAIタスクの手続き計画を達成するために採用されている。
しかし、マルチモーダルタスク入力を考慮した場合、視覚言語モデル~(VLM)がどのように振る舞うかについてはまだ研究されていない。
代替タスクの状況よりもモデルの推論能力を評価する対物プランニングも、悪用されている。
マルチモーダル面とデファクト面の両方の計画能力を評価するために,ActPlan-1Kを提案する。
ActPlan-1KはChatGPTと家庭用アクティビティシミュレータiGibson2に基づいて構築されたマルチモーダル計画ベンチマークである。
ベンチマークは153のアクティビティと1,187のインスタンスで構成されている。
1つのアクティビティを記述する各インスタンスには、自然言語タスク記述とシミュレータからの複数の環境イメージがある。
各インスタンスのゴールドプランは、提供されたシーンのオブジェクトに対するアクションシーケンスである。
典型的VLMにおいて,正当性および常識満足度の評価を行った。
現在のVLMは、正常な活動と反現実的な活動の両方のために、人間レベルの手続き的な計画を作成するのに苦戦していることが判明した。
さらに、BLEURTモデルを微調整して自動評価指標を提供し、将来のベンチマーク研究を促進する。
関連論文リスト
- Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied
Agents [2.8927500190704567]
大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。
本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
論文 参考訳(メタデータ) (2024-02-13T02:28:57Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Generating Executable Action Plans with Environmentally-Aware Language
Models [4.162663632560141]
大量のテキストデータセットを使用してトレーニングされた大規模言語モデル(LLM)は、最近、ロボットエージェントのアクションプランを生成することを約束している。
本稿では,環境に配慮したアクションプラン作成手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T18:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。