論文の概要: SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos
- arxiv url: http://arxiv.org/abs/2403.01599v1
- Date: Sun, 3 Mar 2024 19:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:49:29.180481
- Title: SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos
- Title(参考訳): SCHEMA: 教育ビデオのプロシージャプランニングのための州立CangEsマッター
- Authors: Yulei Niu, Wenliang Guo, Long Chen, Xudong Lin, Shih-Fu Chang
- Abstract要約: 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
- 参考スコア(独自算出の注目度): 54.01116513202433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of procedure planning in instructional videos, which
aims to make a goal-oriented sequence of action steps given partial visual
state observations. The motivation of this problem is to learn a structured and
plannable state and action space. Recent works succeeded in sequence modeling
of steps with only sequence-level annotations accessible during training, which
overlooked the roles of states in the procedures. In this work, we point out
that State CHangEs MAtter (SCHEMA) for procedure planning in instructional
videos. We aim to establish a more structured state space by investigating the
causal relations between steps and states in procedures. Specifically, we
explicitly represent each step as state changes and track the state changes in
procedures. For step representation, we leveraged the commonsense knowledge in
large language models (LLMs) to describe the state changes of steps via our
designed chain-of-thought prompting. For state change tracking, we align visual
state observations with language state descriptions via cross-modal contrastive
learning, and explicitly model the intermediate states of the procedure using
LLM-generated state descriptions. Experiments on CrossTask, COIN, and NIV
benchmark datasets demonstrate that our proposed SCHEMA model achieves
state-of-the-art performance and obtains explainable visualizations.
- Abstract(参考訳): 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
この問題の動機は、構造化され計画可能な状態と行動空間を学ぶことである。
最近の研究は、トレーニング中にシーケンシャルレベルのアノテーションしかアクセスできないステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
本研究では,教示ビデオにおけるプロシージャ計画のためのSCHEMA(State CHangEs MAtter)について述べる。
我々は,手順におけるステップと状態の因果関係を調査し,より構造化された状態空間を確立することを目指している。
具体的には、各ステップを状態変化として明示的に表現し、プロシージャの状態変化を追跡する。
ステップ表現では、大きな言語モデル(LLM)における常識知識を利用して、設計したチェーン・オブ・シークレットによるステップの状態変化を記述しました。
状態変化追跡では,視覚状態と言語状態記述とを相互に比較学習し,LCM生成状態記述を用いた手続きの中間状態を明示的にモデル化する。
CrossTask, COIN, NIVベンチマークデータセットの実験により, 提案したSCHEMAモデルが最先端の性能を達成し, 説明可能な可視化が得られることを示した。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos [46.26690150997731]
本稿では,教育ビデオにおける適応的プロシージャ計画(Adaptive procedure planning)と呼ばれる,新しい実践的な設定を提案する。
RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
論文 参考訳(メタデータ) (2024-03-27T14:22:40Z) - ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。
本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文 参考訳(メタデータ) (2024-03-13T14:54:04Z) - Skip-Plan: Procedure Planning in Instructional Videos via Condensed
Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。
アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。
我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文 参考訳(メタデータ) (2023-10-01T08:02:33Z) - Event-Guided Procedure Planning from Instructional Videos with Text
Supervision [31.82121743586165]
本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。
この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。
本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-17T09:43:28Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Language Modeling with Latent Situations [46.38670628102201]
状況スーパービジョンは、言語モデルにおけるコヒーレンスを改善するためのアプローチのファミリーである。
モデルの構築と、エンティティとその状態の明示的な表現の条件付けを訓練する。
4-11%のコヒーレンス向上を実現している。
論文 参考訳(メタデータ) (2022-12-20T05:59:42Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。