Fugu-MT 論文翻訳(概要): PDPP:Projected Diffusion for Procedure Planning in Instructional Videos

論文の概要: PDPP:Projected Diffusion for Procedure Planning in Instructional Videos

arxiv url: http://arxiv.org/abs/2303.14676v2
Date: Sun, 23 Jul 2023 09:41:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 23:34:04.873950
Title: PDPP:Projected Diffusion for Procedure Planning in Instructional Videos
Title（参考訳）: PDPP:教育ビデオにおけるプロシージャ計画のための拡散計画
Authors: Hanlin Wang, Yilu Wu, Sheng Guo, Limin Wang
Abstract要約: 授業ビデオにおけるプロシージャプランニングの問題について検討する。この問題は、非構造化の実生活ビデオの現在の視覚的観察から、ゴール指向のプランを作成することを目的としている。
参考スコア（独自算出の注目度）: 30.637651835289635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of procedure planning in instructional videos, which aims to make goal-directed plans given the current visual observations in unstructured real-life videos. Previous works cast this problem as a sequence planning problem and leverage either heavy intermediate visual observations or natural language instructions as supervision, resulting in complex learning schemes and expensive annotation costs. In contrast, we treat this problem as a distribution fitting problem. In this sense, we model the whole intermediate action sequence distribution with a diffusion model (PDPP), and thus transform the planning problem to a sampling process from this distribution. In addition, we remove the expensive intermediate supervision, and simply use task labels from instructional videos as supervision instead. Our model is a U-Net based diffusion model, which directly samples action sequences from the learned distribution with the given start and end observations. Furthermore, we apply an efficient projection method to provide accurate conditional guides for our model during the learning and sampling process. Experiments on three datasets with different scales show that our PDPP model can achieve the state-of-the-art performance on multiple metrics, even without the task supervision. Code and trained models are available at https://github.com/MCG-NJU/PDPP.
Abstract（参考訳）: 本稿では,非構造化映像における現状の視覚的観察から目標指向の計画を作成することを目的とした,指導ビデオにおける手順計画の問題について検討する。以前の研究は、この問題をシーケンス計画問題として位置づけ、重い中間視覚観察または自然言語指示を監督として活用し、複雑な学習スキームと高価なアノテーションコストを生み出した。対照的に,この問題は分布適合問題として扱われる。この意味では, 拡散モデル(pdpp)を用いて, 中間動作列分布全体をモデル化し, この分布から計画問題をサンプリングプロセスに変換する。さらに,コストのかかる中間監督を除去し,代わりに指導ビデオからのタスクラベルを監督として使用する。我々のモデルはU-Netに基づく拡散モデルであり、学習した分布からのアクションシーケンスを与えられた開始と終了の観測で直接サンプリングする。さらに,学習およびサンプリング過程において,モデルに対して正確な条件付きガイドを提供するための効率的なプロジェクション手法を適用した。異なるスケールの3つのデータセットで実験したところ、PDPPモデルはタスクの監督なしに複数のメトリクスで最先端のパフォーマンスを達成できることがわかった。コードとトレーニングされたモデルはhttps://github.com/MCG-NJU/PDPPで入手できる。

関連論文リスト

Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文参考訳（メタデータ） (2025-04-23T17:53:34Z)
Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文参考訳（メタデータ） (2025-04-02T16:24:23Z)
CLAD: Constrained Latent Action Diffusion for Vision-Language Procedure Planning [11.4414301678724]
教師ビデオにおける視覚言語プロシージャ計画のための制約付き潜時行動拡散モデルを提案する。本手法では, 変動オートエンコーダを用いて, 動作と観測の潜在表現を制約として学習する。提案手法は最先端の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2025-03-09T14:31:46Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Pattern-Aware Chain-of-Thought Prompting in Large Language Models [26.641713417293538]
CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。このようなタスクにおいて、基礎となる推論パターンがより重要な役割を果たすことを示す。本稿では,デモパターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。
論文参考訳（メタデータ） (2024-04-23T07:50:00Z)
ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文参考訳（メタデータ） (2024-03-13T14:54:04Z)
CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文参考訳（メタデータ） (2024-02-23T19:34:47Z)
Planning as In-Painting: A Diffusion-Based Embodied Task Planning Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。 In-paintingとしての計画」というタスク非依存の手法を提案する。提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-12-02T10:07:17Z)
Refining Diffusion Planner for Reliable Behavior Synthesis by Automatic Detection of Infeasible Plans [25.326624139426514]
拡散に基づくプランニングは、長期のスパースリワードタスクにおいて有望な結果を示している。しかし、生成モデルとしての性質のため、拡散モデルは実現可能な計画を生成することが保証されない。本稿では,拡散モデルが生成する信頼できない計画を改善するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-30T10:35:42Z)
Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文参考訳（メタデータ） (2023-10-04T09:39:05Z)
Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文参考訳（メタデータ） (2023-09-15T17:44:05Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文参考訳（メタデータ） (2023-08-10T08:43:20Z)
P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文参考訳（メタデータ） (2022-05-04T19:37:32Z)
Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。 VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。 VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文参考訳（メタデータ） (2021-12-17T11:53:31Z)
Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文参考訳（メタデータ） (2021-11-11T15:15:11Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。 DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文参考訳（メタデータ） (2021-04-05T03:58:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。