Fugu-MT 論文翻訳(概要): Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching

論文の概要: Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching

arxiv url: http://arxiv.org/abs/2501.17665v1
Date: Wed, 29 Jan 2025 14:04:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.621819
Title: Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching
Title（参考訳）: 視覚言語モデルによる計画とロボット支援教育における活用事例
Authors: Xuzhe Dang, Lada Kudláčková, Stefan Edelkamp,
Abstract要約: 本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。
参考スコア（独自算出の注目度）: 0.9217021281095907
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automating the generation of Planning Domain Definition Language (PDDL) with Large Language Model (LLM) opens new research topic in AI planning, particularly for complex real-world tasks. This paper introduces Image2PDDL, a novel framework that leverages Vision-Language Models (VLMs) to automatically convert images of initial states and descriptions of goal states into PDDL problems. By providing a PDDL domain alongside visual inputs, Imasge2PDDL addresses key challenges in bridging perceptual understanding with symbolic planning, reducing the expertise required to create structured problem instances, and improving scalability across tasks of varying complexity. We evaluate the framework on various domains, including standard planning domains like blocksworld and sliding tile puzzles, using datasets with multiple difficulty levels. Performance is assessed on syntax correctness, ensuring grammar and executability, and content correctness, verifying accurate state representation in generated PDDL problems. The proposed approach demonstrates promising results across diverse task complexities, suggesting its potential for broader applications in AI planning. We will discuss a potential use case in robot-assisted teaching of students with Autism Spectrum Disorder.
Abstract（参考訳）: 計画ドメイン定義言語(PDDL)をLLM(Large Language Model)で自動化することは、AI計画における新しい研究トピック、特に複雑な実世界のタスクに開放する。本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。 Imasge2PDDLは、視覚的な入力と共にPDDLドメインを提供することによって、象徴的な計画による知覚的理解のブリッジ、構造化された問題インスタンスの作成に必要な専門知識の削減、さまざまな複雑さのタスクにわたるスケーラビリティの向上といった、重要な課題に対処する。ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。構文の正しさ、文法と実行可能性の確保、および内容の正しさに基づいて評価を行い、生成したPDDL問題における正確な状態表現を検証する。提案されたアプローチは、さまざまなタスクの複雑さにまたがる有望な結果を示し、AI計画における幅広い応用の可能性を示している。本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。

関連論文リスト

OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
Generating Symbolic World Models via Test-time Scaling of Large Language Models [28.258707611580643]
計画ドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。提案手法は,まずまずBest-of-Nサンプリング手法を用いて初期解の質を向上し,その解を言語化された機械学習で微妙に洗練する。本手法はPDDL ドメインの生成において O1-mini よりも優れ,2つのタスクで50% 以上の成功率を達成した。
論文参考訳（メタデータ） (2025-02-07T07:52:25Z)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。 LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳（メタデータ） (2025-01-30T22:21:12Z)
Multi-Agent Planning Using Visual Language Models [2.2369578015657954]
大規模言語モデル(LLM)とビジュアル言語モデル(VLM)は、様々なドメインやタスクにわたるパフォーマンスとアプリケーションの改善により、関心を集めている。 LLMとVLMは、特に問題領域の深い理解が必要な場合、誤った結果をもたらす。本稿では,特定のデータ構造を入力として必要とせずに動作可能なマルチエージェント型タスクプランニングアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-08-10T08:10:17Z)
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages [20.62336315814875]
benchmarkNameは、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの性能を評価するために設計されたベンチマークである。 13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを,さまざまな難易度で提示する。
論文参考訳（メタデータ） (2024-07-03T17:59:53Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
Visual AI and Linguistic Intelligence Through Steerability and Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文参考訳（メタデータ） (2023-11-18T22:01:33Z)
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。 VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文参考訳（メタデータ） (2023-08-08T09:32:43Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
HDDL 2.1: Towards Defining a Formalism and a Semantics for Temporal HTN Planning [64.07762708909846]
現実世界のアプリケーションは、リッチで多様な自動計画問題をモデル化する必要があります。階層的タスクネットワーク(HTN)形式は、数値的および時間的制約を伴う計画問題の表現を許さない。本稿では,HDDLとこれらの運用ニーズのギャップを埋めるとともに,PDDL 2.1からインスピレーションを得てHDDLを拡張することを提案する。
論文参考訳（メタデータ） (2023-06-12T18:21:23Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
HDDL 2.1: Towards Defining an HTN Formalism with Time [0.0]
産業やロボティクスなどの計画の現実的な応用には、リッチで多様なシナリオをモデル化する必要がある。それらの解像度は通常、協調された同時アクション実行を必要とする。いくつかのケースでは、そのような計画問題は階層的な方法で自然に分解され、階層的なタスクネットワーク形式によって表現される。本稿では,HDDLの拡張に必要なセマンティクスと構文について論じるとともに,地球観測衛星計画問題のモデル化について述べる。
論文参考訳（メタデータ） (2022-06-03T21:22:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。