論文の概要: Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of
Instructional Videos
- arxiv url: http://arxiv.org/abs/2403.02782v1
- Date: Tue, 5 Mar 2024 08:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:32:20.669908
- Title: Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of
Instructional Videos
- Title(参考訳): なぜ教科書を使わないのか?
インストラクショナルビデオの知識強化プロシージャ計画
- Authors: Kumaranage Ravindu Yasas Nagasinghe, Honglu Zhou, Malitha
Gunawardhana, Martin Renqiang Min, Daniel Harari, Muhammad Haris Khan
- Abstract要約: 本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
- 参考スコア(独自算出の注目度): 17.307018506906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the capability of an agent to construct a logical
sequence of action steps, thereby assembling a strategic procedural plan. This
plan is crucial for navigating from an initial visual observation to a target
visual outcome, as depicted in real-life instructional videos. Existing works
have attained partial success by extensively leveraging various sources of
information available in the datasets, such as heavy intermediate visual
observations, procedural names, or natural language step-by-step instructions,
for features or supervision signals. However, the task remains formidable due
to the implicit causal constraints in the sequencing of steps and the
variability inherent in multiple feasible plans. To tackle these intricacies
that previous efforts have overlooked, we propose to enhance the capabilities
of the agent by infusing it with procedural knowledge. This knowledge, sourced
from training procedure plans and structured as a directed weighted graph,
equips the agent to better navigate the complexities of step sequencing and its
potential variations. We coin our approach KEPP, a novel Knowledge-Enhanced
Procedure Planning system, which harnesses a probabilistic procedural knowledge
graph extracted from training data, effectively acting as a comprehensive
textbook for the training domain. Experimental evaluations across three
widely-used datasets under settings of varying complexity reveal that KEPP
attains superior, state-of-the-art results while requiring only minimal
supervision.
- Abstract(参考訳): 本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構成する能力について検討する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
既存の研究は、高度な中間的視覚観察、手続き名、自然言語のステップバイステップ指示など、データセットで利用可能な様々な情報源を特徴や監視信号に広く活用することで部分的に成功している。
しかし、ステップのシークエンシングにおける暗黙の因果的制約と、複数の実現可能な計画に内在する変動性のために、タスクは依然として強固なままである。
従来の取り組みが見落としていたこれらの複雑さに対処するために,手続き的知識を取り入れることでエージェントの能力を高めることを提案する。
この知識は、訓練手順計画から導き出され、有向重み付きグラフとして構成され、ステップシークエンシングの複雑さとその潜在的なバリエーションをよりよくナビゲートするためにエージェントを装備する。
我々は,学習データから抽出した確率的手続き知識グラフを活用し,学習領域の総合教科書として効果的に機能する,新しい知識強化手順計画システムであるkeppを考案した。
さまざまな複雑さの設定下で広く使用されている3つのデータセットに対する実験的評価により、KEPPは最小限の監視しか必要とせず、より優れた最先端の結果が得られることが明らかになった。
関連論文リスト
- Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability [23.81322529587759]
REVEAL-ITは複雑な環境下でのエージェントの学習過程を説明するための新しいフレームワークである。
各種学習課題における政策構造とエージェントの学習過程を可視化する。
GNNベースの説明者は、ポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。
論文 参考訳(メタデータ) (2024-06-20T11:29:26Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos [13.99137623722021]
手続き的活動は、特定の目標を達成するための重要なステップのシーケンスである。
タスクグラフは、手続き的活動の人間的に理解可能な表現として現れてきた。
論文 参考訳(メタデータ) (2024-06-03T16:11:39Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。