論文の概要: RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos
- arxiv url: http://arxiv.org/abs/2403.18600v1
- Date: Wed, 27 Mar 2024 14:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:38:49.158418
- Title: RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos
- Title(参考訳): RAP: 教育ビデオにおける適応的手続き計画のための検索型プランナー
- Authors: Ali Zare, Yulei Niu, Hammad Ayyubi, Shih-fu Chang,
- Abstract要約: 本稿では,教育ビデオにおける適応的プロシージャ計画(Adaptive procedure planning)と呼ばれる,新しい実践的な設定を提案する。
RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
- 参考スコア(独自算出の注目度): 46.26690150997731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Procedure Planning in instructional videos entails generating a sequence of action steps based on visual observations of the initial and target states. Despite the rapid progress in this task, there remain several critical challenges to be solved: (1) Adaptive procedures: Prior works hold an unrealistic assumption that the number of action steps is known and fixed, leading to non-generalizable models in real-world scenarios where the sequence length varies. (2) Temporal relation: Understanding the step temporal relation knowledge is essential in producing reasonable and executable plans. (3) Annotation cost: Annotating instructional videos with step-level labels (i.e., timestamp) or sequence-level labels (i.e., action category) is demanding and labor-intensive, limiting its generalizability to large-scale datasets.In this work, we propose a new and practical setting, called adaptive procedure planning in instructional videos, where the procedure length is not fixed or pre-determined. To address these challenges we introduce Retrieval-Augmented Planner (RAP) model. Specifically, for adaptive procedures, RAP adaptively determines the conclusion of actions using an auto-regressive model architecture. For temporal relation, RAP establishes an external memory module to explicitly retrieve the most relevant state-action pairs from the training videos and revises the generated procedures. To tackle high annotation cost, RAP utilizes a weakly-supervised learning manner to expand the training dataset to other task-relevant, unannotated videos by generating pseudo labels for action steps. Experiments on CrossTask and COIN benchmarks show the superiority of RAP over traditional fixed-length models, establishing it as a strong baseline solution for adaptive procedure planning.
- Abstract(参考訳): 指導ビデオにおけるプロシージャプランニングでは、初期状態と対象状態の視覚的観察に基づいて一連のアクションステップを生成する。
1)適応的手順: 先行研究は、アクションステップの数が知られ、固定されているという非現実的な仮定を持ち、シーケンスの長さが変化する現実世界のシナリオでは、一般化不可能なモデルに繋がる。
2)時間的関係:段階的関係知識を理解することは合理的かつ実行可能な計画の作成に不可欠である。
アノテーションコスト:ステップレベルのラベル (タイムスタンプ) やシーケンスレベルのラベル (アクションカテゴリ) でアノテーションを付加することで,その一般化性を大規模データセットに限定し,作業集約化が図られている。本研究では,命令ビデオにおける適応的プロシージャ計画(Adaptive procedure planning)と呼ばれる,手順長が固定的あるいは事前決定されていない,新たな実践的な設定を提案する。
これらの課題に対処するために、Retrieval-Augmented Planner(RAP)モデルを紹介します。
具体的には、適応的な手続きにおいて、RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
時間的関係のために、RAPはトレーニングビデオから最も関連性の高い状態-アクションペアを明示的に検索し、生成されたプロシージャを更新する外部メモリモジュールを確立する。
高アノテーションコストに対処するため、RAPは弱い教師付き学習手法を使用して、トレーニングデータセットをアクションステップの擬似ラベルを生成することで、他のタスク関連無注釈ビデオに拡張する。
CrossTaskとCOINベンチマークの実験では、従来の固定長モデルよりもRAPの方が優れていることが示され、適応プロシージャ計画のための強力なベースラインソリューションとして確立された。
関連論文リスト
- Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Skip-Plan: Procedure Planning in Instructional Videos via Condensed
Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。
アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。
我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文 参考訳(メタデータ) (2023-10-01T08:02:33Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。