論文の概要: Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
- arxiv url: http://arxiv.org/abs/2511.20073v1
- Date: Tue, 25 Nov 2025 08:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.36615
- Title: Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
- Title(参考訳): 階層展開による手続き型ビデオ表現の学習
- Authors: Jinghan Zhao, Yifei Huang, Feng Lu,
- Abstract要約: 我々は、オブジェクト構成のテキストスナップショットである'states'を、モデルが実際に見ることができるものにプロシージャを固定する視覚的に接地されたセマンティック層として導入する。
我々は、この洞察を新しいタスク-ステップ-ステート(TSS)フレームワークで定式化し、そこでは、観測可能な状態間の遷移を駆動するステップを通じてタスクが達成される。
提案手法は,タスク認識,ステップ認識,次のステップ予測など,複数の下流タスクのベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 12.083424392460406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning procedural-aware video representations is a key step towards building agents that can reason about and execute complex tasks. Existing methods typically address this problem by aligning visual content with textual descriptions at the task and step levels to inject procedural semantics into video representations. However, due to their high level of abstraction, 'task' and 'step' descriptions fail to form a robust alignment with the concrete, observable details in visual data. To address this, we introduce 'states', i.e., textual snapshots of object configurations, as a visually-grounded semantic layer that anchors abstract procedures to what a model can actually see. We formalize this insight in a novel Task-Step-State (TSS) framework, where tasks are achieved via steps that drive transitions between observable states. To enforce this structure, we propose a progressive pre-training strategy that unfolds the TSS hierarchy, forcing the model to ground representations in states while associating them with steps and high-level tasks. Extensive experiments on the COIN and CrossTask datasets show that our method outperforms baseline models on multiple downstream tasks, including task recognition, step recognition, and next step prediction. Ablation studies show that introducing state supervision is a key driver of performance gains across all tasks. Additionally, our progressive pretraining strategy proves more effective than standard joint training, as it better enforces the intended hierarchical structure.
- Abstract(参考訳): 手続き型ビデオ表現の学習は、複雑なタスクを推論し実行可能なエージェントを構築するための重要なステップである。
既存の方法では、視覚コンテンツをタスクのテキスト記述と整列させ、ステップレベルで手続き的意味論をビデオ表現に注入することで、この問題に対処するのが一般的である。
しかし、高レベルの抽象化のため、「タスク」と「ステップ」の記述は、視覚データにおいて、具体的で観察可能な詳細と堅牢に一致しない。
これを解決するために、モデルが実際に見ることができるものに抽象的なプロシージャを固定する視覚的に接地されたセマンティックレイヤとして、オブジェクト構成のテキストスナップショットである「状態」を導入します。
我々は、この洞察を新しいタスク-ステップ-ステート(TSS)フレームワークで定式化し、そこでは、観測可能な状態間の遷移を駆動するステップを通じてタスクが達成される。
そこで本研究では,TSS階層を拡大する段階的事前学習戦略を提案する。
COINデータセットとCrossTaskデータセットの大規模な実験により、タスク認識、ステップ認識、次のステップ予測を含む、複数の下流タスクのベースラインモデルよりも優れた結果が得られた。
アブレーション研究は、国家監督の導入がすべてのタスクにおけるパフォーマンス向上の重要な要因であることを示している。
さらに、我々の進歩的事前訓練戦略は、意図した階層構造をより強化するため、通常の共同訓練よりも効果的であることを示す。
関連論文リスト
- Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文 参考訳(メタデータ) (2024-03-03T19:53:06Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - STEPs: Self-Supervised Key Step Extraction and Localization from
Unlabeled Procedural Videos [40.82053186029603]
問題を表現学習とキーステップ抽出の2つのステップに分解する。
ラベルなしで様々なステップの識別表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。
キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-01-02T18:32:45Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。