論文の概要: SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos
- arxiv url: http://arxiv.org/abs/2403.01599v1
- Date: Sun, 3 Mar 2024 19:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:49:29.180481
- Title: SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos
- Title(参考訳): SCHEMA: 教育ビデオのプロシージャプランニングのための州立CangEsマッター
- Authors: Yulei Niu, Wenliang Guo, Long Chen, Xudong Lin, Shih-Fu Chang
- Abstract要約: 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
- 参考スコア(独自算出の注目度): 54.01116513202433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of procedure planning in instructional videos, which
aims to make a goal-oriented sequence of action steps given partial visual
state observations. The motivation of this problem is to learn a structured and
plannable state and action space. Recent works succeeded in sequence modeling
of steps with only sequence-level annotations accessible during training, which
overlooked the roles of states in the procedures. In this work, we point out
that State CHangEs MAtter (SCHEMA) for procedure planning in instructional
videos. We aim to establish a more structured state space by investigating the
causal relations between steps and states in procedures. Specifically, we
explicitly represent each step as state changes and track the state changes in
procedures. For step representation, we leveraged the commonsense knowledge in
large language models (LLMs) to describe the state changes of steps via our
designed chain-of-thought prompting. For state change tracking, we align visual
state observations with language state descriptions via cross-modal contrastive
learning, and explicitly model the intermediate states of the procedure using
LLM-generated state descriptions. Experiments on CrossTask, COIN, and NIV
benchmark datasets demonstrate that our proposed SCHEMA model achieves
state-of-the-art performance and obtains explainable visualizations.
- Abstract(参考訳): 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
この問題の動機は、構造化され計画可能な状態と行動空間を学ぶことである。
最近の研究は、トレーニング中にシーケンシャルレベルのアノテーションしかアクセスできないステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
本研究では,教示ビデオにおけるプロシージャ計画のためのSCHEMA(State CHangEs MAtter)について述べる。
我々は,手順におけるステップと状態の因果関係を調査し,より構造化された状態空間を確立することを目指している。
具体的には、各ステップを状態変化として明示的に表現し、プロシージャの状態変化を追跡する。
ステップ表現では、大きな言語モデル(LLM)における常識知識を利用して、設計したチェーン・オブ・シークレットによるステップの状態変化を記述しました。
状態変化追跡では,視覚状態と言語状態記述とを相互に比較学習し,LCM生成状態記述を用いた手続きの中間状態を明示的にモデル化する。
CrossTask, COIN, NIVベンチマークデータセットの実験により, 提案したSCHEMAモデルが最先端の性能を達成し, 説明可能な可視化が得られることを示した。
関連論文リスト
- ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning
in Instructional Videos [11.4414301678724]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。
本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文 参考訳(メタデータ) (2024-03-13T14:54:04Z) - Skip-Plan: Procedure Planning in Instructional Videos via Condensed
Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。
アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。
我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文 参考訳(メタデータ) (2023-10-01T08:02:33Z) - Event-Guided Procedure Planning from Instructional Videos with Text
Supervision [31.82121743586165]
本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。
この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。
本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-17T09:43:28Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Language Modeling with Latent Situations [46.38670628102201]
状況スーパービジョンは、言語モデルにおけるコヒーレンスを改善するためのアプローチのファミリーである。
モデルの構築と、エンティティとその状態の明示的な表現の条件付けを訓練する。
4-11%のコヒーレンス向上を実現している。
論文 参考訳(メタデータ) (2022-12-20T05:59:42Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。