論文の概要: EgoVIS@CVPR: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning
- arxiv url: http://arxiv.org/abs/2506.00101v1
- Date: Fri, 30 May 2025 13:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.29109
- Title: EgoVIS@CVPR: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning
- Title(参考訳): EgoVIS@CVPR:何が変化し、何が変化したか? プロシージャ対応ビデオ表現学習のための状態変化対策
- Authors: Chi-Hsi Kung, Frangil Ramirez, Juhyung Ha, Yi-Ting Chen, David Crandall, Yi-Hsuan Tsai,
- Abstract要約: 状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。
我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。
本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
- 参考スコア(独自算出の注目度): 22.00652926645987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding a procedural activity requires modeling both how action steps transform the scene, and how evolving scene transformations can influence the sequence of action steps, even those that are accidental or erroneous. Yet, existing work on procedure-aware video representations fails to explicitly learned the state changes (scene transformations). In this work, we study procedure-aware video representation learning by incorporating state-change descriptions generated by LLMs as supervision signals for video encoders. Moreover, we generate state-change counterfactuals that simulate hypothesized failure outcomes, allowing models to learn by imagining the unseen ``What if'' scenarios. This counterfactual reasoning facilitates the model's ability to understand the cause and effect of each step in an activity. To verify the procedure awareness of our model, we conduct extensive experiments on procedure-aware tasks, including temporal action segmentation, error detection, and more. Our results demonstrate the effectiveness of the proposed state-change descriptions and their counterfactuals, and achieve significant improvements on multiple tasks.
- Abstract(参考訳): 手続き的活動を理解するには、アクションステップがシーンをどのように変換するか、シーン変換の進化がアクションステップのシーケンスにどのように影響するか、あるいは偶発的あるいは誤ったものであってもモデル化する必要がある。
しかし、プロシージャ対応のビデオ表現に関する既存の研究は、状態変化(シーン変換)を明示的に学ばない。
本研究では,LLMが生成する状態変化記述をビデオエンコーダの監視信号として組み込むことにより,プロシージャ対応のビデオ表現学習について検討する。
さらに、我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成し、未知の ‘What if' シナリオを想像することでモデルを学習できるようにする。
この反現実的推論は、モデルが活動における各ステップの原因と効果を理解する能力を促進する。
本モデルの手順認識を検証するため,時間的動作のセグメンテーションやエラー検出など,プロシージャ対応タスクに関する広範な実験を行った。
提案した状態変化記述とその対策の有効性を実証し,複数のタスクにおいて大幅な改善を実現した。
関連論文リスト
- What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning [22.00652926645987]
状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。
我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。
本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
論文 参考訳(メタデータ) (2025-03-27T00:03:55Z) - Learning Actionable World Models for Industrial Process Control [5.870452455598225]
効果的なAIシステムは、非常に限られたトレーニングデータから複雑なシステムの振る舞いについて学ぶ必要がある。
本稿では,学習した潜在表現においてプロセスパラメータをアンタングル化する新しい手法を提案する。
これにより、入力の変化から表現の変化を予測することができ、その逆も可能となり、プロセスのバリエーションに責任を負う重要な要因の解釈が容易になる。
論文 参考訳(メタデータ) (2025-03-03T11:05:44Z) - SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文 参考訳(メタデータ) (2024-03-03T19:53:06Z) - STEPs: Self-Supervised Key Step Extraction and Localization from
Unlabeled Procedural Videos [40.82053186029603]
問題を表現学習とキーステップ抽出の2つのステップに分解する。
ラベルなしで様々なステップの識別表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。
キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-01-02T18:32:45Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。