論文の概要: Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching
- arxiv url: http://arxiv.org/abs/2501.17665v1
- Date: Wed, 29 Jan 2025 14:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:28.041562
- Title: Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching
- Title(参考訳): 視覚言語モデルによる計画とロボット支援教育における活用事例
- Authors: Xuzhe Dang, Lada Kudláčková, Stefan Edelkamp,
- Abstract要約: 本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。
ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。
本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License:
- Abstract: Automating the generation of Planning Domain Definition Language (PDDL) with Large Language Model (LLM) opens new research topic in AI planning, particularly for complex real-world tasks. This paper introduces Image2PDDL, a novel framework that leverages Vision-Language Models (VLMs) to automatically convert images of initial states and descriptions of goal states into PDDL problems. By providing a PDDL domain alongside visual inputs, Imasge2PDDL addresses key challenges in bridging perceptual understanding with symbolic planning, reducing the expertise required to create structured problem instances, and improving scalability across tasks of varying complexity. We evaluate the framework on various domains, including standard planning domains like blocksworld and sliding tile puzzles, using datasets with multiple difficulty levels. Performance is assessed on syntax correctness, ensuring grammar and executability, and content correctness, verifying accurate state representation in generated PDDL problems. The proposed approach demonstrates promising results across diverse task complexities, suggesting its potential for broader applications in AI planning. We will discuss a potential use case in robot-assisted teaching of students with Autism Spectrum Disorder.
- Abstract(参考訳): 計画ドメイン定義言語(PDDL)をLLM(Large Language Model)で自動化することは、AI計画における新しい研究トピック、特に複雑な実世界のタスクに開放する。
本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。
Imasge2PDDLは、視覚的な入力と共にPDDLドメインを提供することによって、象徴的な計画による知覚的理解のブリッジ、構造化された問題インスタンスの作成に必要な専門知識の削減、さまざまな複雑さのタスクにわたるスケーラビリティの向上といった、重要な課題に対処する。
ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。
構文の正しさ、文法と実行可能性の確保、および内容の正しさに基づいて評価を行い、生成したPDDL問題における正確な状態表現を検証する。
提案されたアプローチは、さまざまなタスクの複雑さにまたがる有望な結果を示し、AI計画における幅広い応用の可能性を示している。
本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。
関連論文リスト
- Multi-Agent Planning Using Visual Language Models [2.2369578015657954]
大規模言語モデル(LLM)とビジュアル言語モデル(VLM)は、様々なドメインやタスクにわたるパフォーマンスとアプリケーションの改善により、関心を集めている。
LLMとVLMは、特に問題領域の深い理解が必要な場合、誤った結果をもたらす。
本稿では,特定のデータ構造を入力として必要とせずに動作可能なマルチエージェント型タスクプランニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:10:17Z) - Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages [20.62336315814875]
benchmarkNameは、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの性能を評価するために設計されたベンチマークである。
13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを,さまざまな難易度で提示する。
論文 参考訳(メタデータ) (2024-07-03T17:59:53Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Visual AI and Linguistic Intelligence Through Steerability and
Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。
この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文 参考訳(メタデータ) (2023-11-18T22:01:33Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - HDDL 2.1: Towards Defining a Formalism and a Semantics for Temporal HTN
Planning [64.07762708909846]
現実世界のアプリケーションは、リッチで多様な自動計画問題をモデル化する必要があります。
階層的タスクネットワーク(HTN)形式は、数値的および時間的制約を伴う計画問題の表現を許さない。
本稿では,HDDLとこれらの運用ニーズのギャップを埋めるとともに,PDDL 2.1からインスピレーションを得てHDDLを拡張することを提案する。
論文 参考訳(メタデータ) (2023-06-12T18:21:23Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Plansformer: Generating Symbolic Plans using Transformers [24.375997526106246]
大規模言語モデル(LLM)は、自然言語処理(NLP)分野を著しく進歩させ、活発な研究対象となっている。
プランフォーマーは計画上の問題に微調整され、知識工学の努力を減らし、正確さと長さの点で良好な行動で計画を生成することができる。
Plansformerの1つの構成では、97%の有効なプランが達成されます。
論文 参考訳(メタデータ) (2022-12-16T19:06:49Z) - HDDL 2.1: Towards Defining an HTN Formalism with Time [0.0]
産業やロボティクスなどの計画の現実的な応用には、リッチで多様なシナリオをモデル化する必要がある。
それらの解像度は通常、協調された同時アクション実行を必要とする。
いくつかのケースでは、そのような計画問題は階層的な方法で自然に分解され、階層的なタスクネットワーク形式によって表現される。
本稿では,HDDLの拡張に必要なセマンティクスと構文について論じるとともに,地球観測衛星計画問題のモデル化について述べる。
論文 参考訳(メタデータ) (2022-06-03T21:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。