Fugu-MT 論文翻訳(概要): SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos

論文の概要: SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos

arxiv url: http://arxiv.org/abs/2403.01599v1
Date: Sun, 3 Mar 2024 19:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 20:49:29.180481
Title: SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos
Title（参考訳）: SCHEMA: 教育ビデオのプロシージャプランニングのための州立CangEsマッター
Authors: Yulei Niu, Wenliang Guo, Long Chen, Xudong Lin, Shih-Fu Chang
Abstract要約: 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
参考スコア（独自算出の注目度）: 54.01116513202433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the problem of procedure planning in instructional videos, which aims to make a goal-oriented sequence of action steps given partial visual state observations. The motivation of this problem is to learn a structured and plannable state and action space. Recent works succeeded in sequence modeling of steps with only sequence-level annotations accessible during training, which overlooked the roles of states in the procedures. In this work, we point out that State CHangEs MAtter (SCHEMA) for procedure planning in instructional videos. We aim to establish a more structured state space by investigating the causal relations between steps and states in procedures. Specifically, we explicitly represent each step as state changes and track the state changes in procedures. For step representation, we leveraged the commonsense knowledge in large language models (LLMs) to describe the state changes of steps via our designed chain-of-thought prompting. For state change tracking, we align visual state observations with language state descriptions via cross-modal contrastive learning, and explicitly model the intermediate states of the procedure using LLM-generated state descriptions. Experiments on CrossTask, COIN, and NIV benchmark datasets demonstrate that our proposed SCHEMA model achieves state-of-the-art performance and obtains explainable visualizations.
Abstract（参考訳）: 本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。この問題の動機は、構造化され計画可能な状態と行動空間を学ぶことである。最近の研究は、トレーニング中にシーケンシャルレベルのアノテーションしかアクセスできないステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。本研究では,教示ビデオにおけるプロシージャ計画のためのSCHEMA(State CHangEs MAtter)について述べる。我々は,手順におけるステップと状態の因果関係を調査し,より構造化された状態空間を確立することを目指している。具体的には、各ステップを状態変化として明示的に表現し、プロシージャの状態変化を追跡する。ステップ表現では、大きな言語モデル(LLM)における常識知識を利用して、設計したチェーン・オブ・シークレットによるステップの状態変化を記述しました。状態変化追跡では,視覚状態と言語状態記述とを相互に比較学習し,LCM生成状態記述を用いた手続きの中間状態を明示的にモデル化する。 CrossTask, COIN, NIVベンチマークデータセットの実験により, 提案したSCHEMAモデルが最先端の性能を達成し, 説明可能な可視化が得られることを示した。

関連論文リスト

EgoVIS@CVPR: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning [22.00652926645987]
状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
論文参考訳（メタデータ） (2025-05-30T13:39:29Z)
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning [22.00652926645987]
状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
論文参考訳（メタデータ） (2025-03-27T00:03:55Z)
STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文参考訳（メタデータ） (2024-04-20T07:56:21Z)
RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos [46.26690150997731]
本稿では,教育ビデオにおける適応的プロシージャ計画(Adaptive procedure planning)と呼ばれる,新しい実践的な設定を提案する。 RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
論文参考訳（メタデータ） (2024-03-27T14:22:40Z)
ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文参考訳（メタデータ） (2024-03-13T14:54:04Z)
Skip-Plan: Procedure Planning in Instructional Videos via Condensed Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文参考訳（メタデータ） (2023-10-01T08:02:33Z)
Event-Guided Procedure Planning from Instructional Videos with Text Supervision [31.82121743586165]
本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
論文参考訳（メタデータ） (2023-08-17T09:43:28Z)
Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文参考訳（メタデータ） (2023-06-06T15:45:53Z)
Language Modeling with Latent Situations [46.38670628102201]
状況スーパービジョンは、言語モデルにおけるコヒーレンスを改善するためのアプローチのファミリーである。モデルの構築と、エンティティとその状態の明示的な表現の条件付けを訓練する。 4-11%のコヒーレンス向上を実現している。
論文参考訳（メタデータ） (2022-12-20T05:59:42Z)
P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文参考訳（メタデータ） (2022-05-04T19:37:32Z)
Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文参考訳（メタデータ） (2020-09-28T10:28:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。