論文の概要: RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos
- arxiv url: http://arxiv.org/abs/2403.18600v2
- Date: Wed, 25 Sep 2024 14:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 03:37:10.009342
- Title: RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos
- Title(参考訳): RAP: 教育ビデオにおける適応的手続き計画のための検索型プランナー
- Authors: Ali Zare, Yulei Niu, Hammad Ayyubi, Shih-fu Chang,
- Abstract要約: 本稿では,教育ビデオにおける適応的プロシージャ計画(Adaptive procedure planning)と呼ばれる,新しい実践的な設定を提案する。
RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
- 参考スコア(独自算出の注目度): 46.26690150997731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Procedure Planning in instructional videos entails generating a sequence of action steps based on visual observations of the initial and target states. Despite the rapid progress in this task, there remain several critical challenges to be solved: (1) Adaptive procedures: Prior works hold an unrealistic assumption that the number of action steps is known and fixed, leading to non-generalizable models in real-world scenarios where the sequence length varies. (2) Temporal relation: Understanding the step temporal relation knowledge is essential in producing reasonable and executable plans. (3) Annotation cost: Annotating instructional videos with step-level labels (i.e., timestamp) or sequence-level labels (i.e., action category) is demanding and labor-intensive, limiting its generalizability to large-scale datasets. In this work, we propose a new and practical setting, called adaptive procedure planning in instructional videos, where the procedure length is not fixed or pre-determined. To address these challenges, we introduce Retrieval-Augmented Planner (RAP) model. Specifically, for adaptive procedures, RAP adaptively determines the conclusion of actions using an auto-regressive model architecture. For temporal relation, RAP establishes an external memory module to explicitly retrieve the most relevant state-action pairs from the training videos and revises the generated procedures. To tackle high annotation cost, RAP utilizes a weakly-supervised learning manner to expand the training dataset to other task-relevant, unannotated videos by generating pseudo labels for action steps. Experiments on CrossTask and COIN benchmarks show the superiority of RAP over traditional fixed-length models, establishing it as a strong baseline solution for adaptive procedure planning.
- Abstract(参考訳): 指導ビデオにおけるプロシージャプランニングでは、初期状態と対象状態の視覚的観察に基づいて一連のアクションステップを生成する。
1)適応的手順: 先行研究は、アクションステップの数が知られ、固定されているという非現実的な仮定を持ち、シーケンスの長さが変化する現実世界のシナリオでは、一般化不可能なモデルに繋がる。
2)時間的関係:段階的関係知識を理解することは合理的かつ実行可能な計画の作成に不可欠である。
アノテーションコスト: ステップレベルのラベル(タイムスタンプ)やシーケンスレベルのラベル(アクションカテゴリ)で動画に注釈を付けることで、大規模データセットにその一般化性を制限することができる。
そこで本研究では,プロシージャ長の固定や事前決定を行わない,適応的プロシージャ計画(Adaptive procedure planning)という,新しい実践的な設定を提案する。
これらの課題に対処するために、Retrieval-Augmented Planner(RAP)モデルを導入する。
具体的には、適応的な手続きにおいて、RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
時間的関係のために、RAPはトレーニングビデオから最も関連性の高い状態-アクションペアを明示的に検索し、生成されたプロシージャを更新する外部メモリモジュールを確立する。
高アノテーションコストに対処するため、RAPは弱い教師付き学習手法を使用して、トレーニングデータセットをアクションステップの擬似ラベルを生成することで、他のタスク関連無注釈ビデオに拡張する。
CrossTaskとCOINベンチマークの実験では、従来の固定長モデルよりもRAPの方が優れていることが示され、適応プロシージャ計画のための強力なベースラインソリューションとして確立された。
関連論文リスト
- Exploring the Temporal Consistency for Point-Level Weakly-Supervised Temporal Action Localization [66.80402022104074]
ポイント教師付きテンポラルアクションローカライゼーション(PTAL)は、軽快なフレームアノテートパラダイム(textiti.e.、アクションインスタンスごとに1フレームのみをラベル付けする)を採用して、教師なしビデオ内のアクションインスタンスを見つけるようモデルを訓練する。
既存のアプローチのほとんどは、アクションのフレーム間の時間的関係を明確にモデル化することなく、ポイントトリミングされたスニペットレベルの分類だけでモデルのタスクヘッドを設計する。
本稿では,行動ローカライゼーションのための時間的理解能力を高めるために,ポイントインスペクションを完全に活用するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T14:46:21Z) - CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates [35.64639873984766]
本稿では,初期状態と目標状態の間の中間的推論ステップを導入したSGI(Scene Graph Incremental Update)を提案する。
シーケンシャルプランニングにおける信頼性の向上に加えて、SGIはPlan-BenchやVQAといった従来のプランニングタスクに一般化している。
論文 参考訳(メタデータ) (2025-12-11T06:46:51Z) - StepWiser: Stepwise Generative Judges for Wiser Reasoning [52.32416311990343]
プロセス報酬モデルは、ステップバイステップのフィードバックを提供することによって、この問題に対処する。
近年の進歩に触発されて、分類タスクから推論タスク自体への段階的な報酬モデリングを再構築しました。
既存の手法よりも中間段階の精度が向上し, (ii) 訓練時の政策モデルの改善に利用でき, (iii) 推論時探索の改善が図られている。
論文 参考訳(メタデータ) (2025-08-26T17:45:05Z) - HiPlan: Hierarchical Planning for LLM-Based Agents with Adaptive Global-Local Guidance [11.621973074884002]
HiPlanは、大規模言語モデル(LLM)ベースのエージェントのための階層的計画フレームワークである。
複雑なタスクを、一般的な方向のためのマイルストーンアクションガイドと、詳細なアクションのためのステップワイズヒントに分解する。
オフラインのフェーズでは、専門家によるデモンストレーションからマイルストーンライブラリを構築し、構造化されたエクスペリエンスの再利用を可能にします。
実行フェーズでは、過去のマイルストーンからの軌道セグメントを動的に適応してステップワイズヒントを生成する。
論文 参考訳(メタデータ) (2025-08-26T14:37:48Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Skip-Plan: Procedure Planning in Instructional Videos via Condensed
Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。
アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。
我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文 参考訳(メタデータ) (2023-10-01T08:02:33Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。