Fugu-MT 論文翻訳(概要): P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision

論文の概要: P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision

arxiv url: http://arxiv.org/abs/2205.02300v1
Date: Wed, 4 May 2022 19:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-06 14:58:48.774332
Title: P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision
Title（参考訳）: P3IV:弱視映像からの確率的手続き計画
Authors: He Zhao and Isma Hadji and Nikita Dvornik and Konstantinos G. Derpanis and Richard P. Wildes and Allan D. Jepson
Abstract要約: 授業ビデオにおけるプロシージャプランニングの問題について検討する。ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
参考スコア（独自算出の注目度）: 31.73732506824829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of procedure planning in instructional videos. Here, an agent must produce a plausible sequence of actions that can transform the environment from a given start to a desired goal state. When learning procedure planning from instructional videos, most recent work leverages intermediate visual observations as supervision, which requires expensive annotation efforts to localize precisely all the instructional steps in training videos. In contrast, we remove the need for expensive temporal video annotations and propose a weakly supervised approach by learning from natural language instructions. Our model is based on a transformer equipped with a memory module, which maps the start and goal observations to a sequence of plausible actions. Furthermore, we augment our model with a probabilistic generative module to capture the uncertainty inherent to procedure planning, an aspect largely overlooked by previous work. We evaluate our model on three datasets and show our weaklysupervised approach outperforms previous fully supervised state-of-the-art models on multiple metrics.
Abstract（参考訳）: 本稿では,指導ビデオにおける手順計画の問題について検討する。ここでエージェントは、与えられた開始から所望の目標状態へ環境を変換できる実行可能なアクションのシーケンスを生成する必要がある。指導ビデオからプロシージャプランニングを学ぶ際、最新の研究は中間的な視覚観察を監督として活用し、訓練ビデオのすべての指導手順を正確にローカライズするために高価なアノテーションを必要とする。対照的に,高コストなテンポラリビデオアノテーションの必要性を取り除き,自然言語命令から学ぶことで,教師の少ないアプローチを提案する。本モデルでは,メモリモジュールを備えたトランスフォーマーをベースとして,開始点と目標の観測結果を可視な動作のシーケンスにマッピングする。さらに,従来の作業では見過ごされていた手続き計画に固有の不確かさを捉えるために,確率的生成モジュールを用いてモデルを拡張した。 3つのデータセットでモデルを評価し、複数のメトリクスで従来の完全教師付き最先端モデルよりも弱い教師付きアプローチを示しました。

関連論文リスト

Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。 3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文参考訳（メタデータ） (2025-04-02T17:59:57Z)
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文参考訳（メタデータ） (2024-10-04T14:52:09Z)
Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-08T11:54:49Z)
Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文参考訳（メタデータ） (2024-03-05T08:55:51Z)
CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文参考訳（メタデータ） (2024-02-23T19:34:47Z)
A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文参考訳（メタデータ） (2023-04-26T17:59:45Z)
Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文参考訳（メタデータ） (2023-03-31T07:02:26Z)
PDPP:Projected Diffusion for Procedure Planning in Instructional Videos [30.637651835289635]
授業ビデオにおけるプロシージャプランニングの問題について検討する。この問題は、非構造化の実生活ビデオの現在の視覚的観察から、ゴール指向のプランを作成することを目的としている。
論文参考訳（メタデータ） (2023-03-26T10:50:16Z)
Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文参考訳（メタデータ） (2023-03-23T17:59:54Z)
Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-05T01:06:53Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。