論文の概要: PDPP: Projected Diffusion for Procedure Planning in Instructional Videos
- arxiv url: http://arxiv.org/abs/2303.14676v3
- Date: Wed, 22 Jan 2025 09:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:54.973783
- Title: PDPP: Projected Diffusion for Procedure Planning in Instructional Videos
- Title(参考訳): PDPP:教育ビデオにおけるプロシージャ計画のための拡散計画
- Authors: Hanlin Wang, Yilu Wu, Sheng Guo, Limin Wang,
- Abstract要約: 本研究では,現在の視覚的観察と目的を考慮に入れた計画(一連の行動)の実現を目的とした指導ビデオにおけるプロシージャ計画の課題について検討する。
以前の研究は、これをシーケンスモデリングの問題とみなし、中間的な視覚観察または言語指示を監督として活用した。
自己回帰的に計画することによる中間的監視アノテーションやエラーの蓄積を回避するため,拡散型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.984980596601513
- License:
- Abstract: In this paper, we study the problem of procedure planning in instructional videos, which aims to make a plan (i.e. a sequence of actions) given the current visual observation and the desired goal. Previous works cast this as a sequence modeling problem and leverage either intermediate visual observations or language instructions as supervision to make autoregressive planning, resulting in complex learning schemes and expensive annotation costs. To avoid intermediate supervision annotation and error accumulation caused by planning autoregressively, we propose a diffusion-based framework, coined as PDPP, to directly model the whole action sequence distribution with task label as supervision instead. Our core idea is to treat procedure planning as a distribution fitting problem under the given observations, thus transform the planning problem to a sampling process from this distribution during inference. The diffusion-based modeling approach also effectively addresses the uncertainty issue in procedure planning. Based on PDPP, we further apply joint training to our framework to generate plans with varying horizon lengths using a single model and reduce the number of training parameters required. We instantiate our PDPP with three popular diffusion models and investigate a series of condition-introducing methods in our framework, including condition embeddings, MoEs, two-stage prediction and Classifier-Free Guidance strategy. Finally, we apply our PDPP to the Visual Planners for human Assistance problem which requires the goal specified in natural language rather than visual observation. We conduct experiments on challenging datasets of different scales and our PDPP model achieves the state-of-the-art performance on multiple metrics, even compared with those strongly-supervised counterparts. These results further demonstrates the effectiveness and generalization ability of our model.
- Abstract(参考訳): 本稿では,現在の視覚的観察と望ましい目標を考慮に入れた計画(つまり一連の行動)を行うことを目的とした,指導ビデオにおける手順計画の課題について考察する。
以前の研究は、これをシーケンスモデリングの問題とみなし、中間的な視覚観察または言語指示を自動回帰計画の監督として活用し、複雑な学習スキームと高価なアノテーションコストを生み出した。
自己回帰的に計画することによる中間的監視アノテーションやエラーの蓄積を回避するため,PDPPと呼ばれる拡散に基づくフレームワークを提案し,代わりにタスクラベルを監督として,アクションシーケンスの分布全体を直接モデル化する。
提案手法の中核となる考え方は,提案手法を所定の観測条件下での分布適合問題として扱うことである。
拡散に基づくモデリング手法は、プロシージャ計画における不確実性問題にも効果的に対処する。
PDPPに基づいて,本フレームワークに共同トレーニングを適用し,単一モデルを用いて水平長の異なるプランを生成し,必要なトレーニングパラメータの数を削減した。
我々はPDPPを3つの拡散モデルでインスタンス化し、条件埋め込み、MoE、二段階予測、分類自由誘導戦略を含む一連の条件導入手法について検討する。
最後に、視覚的観察よりも自然言語で指定された目標を必要とする人間の援助問題に対して、PDPPを視覚プランナーに適用する。
我々は、異なるスケールの挑戦的データセットの実験を行い、PDPPモデルは、強く監督されたデータセットと比較して、複数のメトリクスにおける最先端のパフォーマンスを達成する。
これらの結果は,モデルの有効性と一般化能力をさらに示すものである。
関連論文リスト
- Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。
本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文 参考訳(メタデータ) (2024-03-13T14:54:04Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Refining Diffusion Planner for Reliable Behavior Synthesis by Automatic
Detection of Infeasible Plans [25.326624139426514]
拡散に基づくプランニングは、長期のスパースリワードタスクにおいて有望な結果を示している。
しかし、生成モデルとしての性質のため、拡散モデルは実現可能な計画を生成することが保証されない。
本稿では,拡散モデルが生成する信頼できない計画を改善するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T10:35:42Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Position Paper: Online Modeling for Offline Planning [2.8326418377665346]
AI計画研究の重要な部分はアクションモデルの表現である。
この分野の成熟にもかかわらず、AI計画技術は研究コミュニティの外ではめったに使われない。
これは、モデリングプロセスが計画プロセスの前に行われ、完了したと仮定されているためである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-07T14:48:08Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。