論文の概要: LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos
- arxiv url: http://arxiv.org/abs/2603.09743v1
- Date: Tue, 10 Mar 2026 14:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.405888
- Title: LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos
- Title(参考訳): LAP:教育ビデオのプロシージャプランニングのための言語対応プランニングモデル
- Authors: Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry,
- Abstract要約: 本稿では,視覚的観察と計画を橋渡しする新しい手法であるLanguage-Aware Planning(LAP)を紹介する。
LAPは、視覚観察をテキスト記述に変換するために微調整された視覚言語モデル(VLM)を使用している。
LAPは、複数のメトリクスと時間的地平線をまたいだ新しい最先端のパフォーマンスを、大きなマージンで達成する。
- 参考スコア(独自算出の注目度): 4.756254213746543
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Procedure planning requires a model to predict a sequence of actions that transform a start visual observation into a goal in instructional videos. While most existing methods rely primarily on visual observations as input, they often struggle with the inherent ambiguity where different actions can appear visually similar. In this work, we argue that language descriptions offer a more distinctive representation in the latent space for procedure planning. We introduce Language-Aware Planning (LAP), a novel method that leverages the expressiveness of language to bridge visual observation and planning. LAP uses a finetuned Vision Language Model (VLM) to translate visual observations into text descriptions and to predict actions and extract text embeddings. These text embeddings are more distinctive than visual embeddings and are used in a diffusion model for planning action sequences. We evaluate LAP on three procedure planning benchmarks: CrossTask, Coin, and NIV. LAP achieves new state-of-the-art performance across multiple metrics and time horizons by large margin, demonstrating the significant advantage of language-aware planning.
- Abstract(参考訳): プロシージャ計画では、開始時の視覚的観察を指導ビデオの目標に変換する一連のアクションを予測するモデルが必要である。
既存のほとんどの手法は、主に視覚的な観察を入力として依存するが、異なるアクションが視覚的に類似しているような、固有の曖昧さに苦慮することが多い。
本研究では,言語記述が手続き計画のための潜在空間において,より独特な表現を提供することを論じる。
本稿では,視覚的観察と計画の橋渡しに言語表現を活用する新しい手法であるLanguage-Aware Planning(LAP)を紹介する。
LAPは、微調整された視覚言語モデル(VLM)を使用して、視覚観察をテキスト記述に翻訳し、アクションを予測し、テキスト埋め込みを抽出する。
これらのテキスト埋め込みは、視覚的な埋め込みよりも特徴的で、アクションシーケンスを計画するための拡散モデルで使用される。
我々は、CrossTask、Coin、NIVの3つのプロシージャ計画ベンチマークでLAPを評価した。
LAPは、複数のメトリクスと時間的地平線をまたいだ新しい最先端のパフォーマンスを大きなマージンで達成し、言語対応プランニングの大きな利点を示している。
関連論文リスト
- LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning [26.098281158573748]
マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。
LLaPaはテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。
手続き計画を改善するために,LLaPaを2つの補助モジュールで拡張する。
論文 参考訳(メタデータ) (2025-07-11T11:18:49Z) - Visual Planning: Let's Think Only with Images [46.501897093584965]
我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。
そこで我々は,これらの「ビジョンファースト」タスクを純粋に視覚的に表現して計画できる新しいパラダイム「ビジュアルプランニング」を提案する。
このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
論文 参考訳(メタデータ) (2025-05-16T16:17:22Z) - CLAD: Constrained Latent Action Diffusion for Vision-Language Procedure Planning [11.4414301678724]
教師ビデオにおける視覚言語プロシージャ計画のための制約付き潜時行動拡散モデルを提案する。
本手法では, 変動オートエンコーダを用いて, 動作と観測の潜在表現を制約として学習する。
提案手法は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2025-03-09T14:31:46Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。