Fugu-MT 論文翻訳(概要): What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

論文の概要: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

arxiv url: http://arxiv.org/abs/2503.21055v1
Date: Thu, 27 Mar 2025 00:03:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.338031
Title: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning
Title（参考訳）: 何を変えたのか、何が変わったのか? プロシージャ対応ビデオ表現学習のための状態変化対策
Authors: Chi-Hsi Kung, Frangil Ramirez, Juhyung Ha, Yi-Ting Chen, David Crandall, Yi-Hsuan Tsai,
Abstract要約: 状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
参考スコア（独自算出の注目度）: 22.00652926645987
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding a procedural activity requires modeling both how action steps transform the scene, and how evolving scene transformations can influence the sequence of action steps, even those that are accidental or erroneous. Existing work has studied procedure-aware video representations by proposing novel approaches such as modeling the temporal order of actions and has not explicitly learned the state changes (scene transformations). In this work, we study procedure-aware video representation learning by incorporating state-change descriptions generated by Large Language Models (LLMs) as supervision signals for video encoders. Moreover, we generate state-change counterfactuals that simulate hypothesized failure outcomes, allowing models to learn by imagining the unseen ``What if'' scenarios. This counterfactual reasoning facilitates the model's ability to understand the cause and effect of each step in an activity. To verify the procedure awareness of our model, we conduct extensive experiments on procedure-aware tasks, including temporal action segmentation and error detection. Our results demonstrate the effectiveness of the proposed state-change descriptions and their counterfactuals and achieve significant improvements on multiple tasks. We will make our source code and data publicly available soon.
Abstract（参考訳）: 手続き的活動を理解するには、アクションステップがシーンをどのように変換するか、シーン変換の進化がアクションステップのシーケンスにどのように影響するか、あるいは偶発的あるいは誤ったものであってもモデル化する必要がある。既存の研究は、動作の時間順をモデル化するといった新しいアプローチを提案してプロシージャ対応のビデオ表現を研究しており、状態変化(シーン変換)を明示的に学ばない。本研究では,Large Language Models (LLM) が生成する状態変化記述をビデオエンコーダの監視信号として組み込むことにより,プロシージャ対応のビデオ表現学習について検討する。さらに、我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成し、未知の ‘What if' シナリオを想像することでモデルを学習できるようにする。この反現実的推論は、モデルが活動における各ステップの原因と効果を理解する能力を促進する。提案モデルの手順認識を検証するため,時間的動作セグメント化やエラー検出など,プロシージャ対応タスクについて広範な実験を行った。提案した状態変化記述とその対策の有効性を実証し,複数のタスクにおいて大幅な改善を実現した。近いうちに、ソースコードとデータを公開します。

関連論文リスト

EgoVIS@CVPR: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning [22.00652926645987]
状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
論文参考訳（メタデータ） (2025-05-30T13:39:29Z)
SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文参考訳（メタデータ） (2025-03-15T01:48:54Z)
Learning Actionable World Models for Industrial Process Control [5.870452455598225]
効果的なAIシステムは、非常に限られたトレーニングデータから複雑なシステムの振る舞いについて学ぶ必要がある。本稿では,学習した潜在表現においてプロセスパラメータをアンタングル化して,きめ細かい制御を可能にする手法を提案する。
論文参考訳（メタデータ） (2025-03-03T11:05:44Z)
SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文参考訳（メタデータ） (2024-03-03T19:53:06Z)
Masked Diffusion with Task-awareness for Procedure Planning in Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文参考訳（メタデータ） (2023-09-14T03:25:37Z)
Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文参考訳（メタデータ） (2023-03-31T07:02:26Z)
HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。本稿では,新しい視点から新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-02-07T18:34:59Z)
STEPs: Self-Supervised Key Step Extraction and Localization from Unlabeled Procedural Videos [40.82053186029603]
問題を表現学習とキーステップ抽出の2つのステップに分解する。ラベルなしで様々なステップの識別表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも顕著な改善が見られた。
論文参考訳（メタデータ） (2023-01-02T18:32:45Z)
Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文参考訳（メタデータ） (2022-11-24T09:42:46Z)
Weakly-supervised Action Transition Learning for Stochastic Human Motion Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文参考訳（メタデータ） (2022-05-31T08:38:07Z)
Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文参考訳（メタデータ） (2022-05-22T13:14:09Z)
P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文参考訳（メタデータ） (2022-05-04T19:37:32Z)
Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文参考訳（メタデータ） (2022-01-26T15:06:28Z)
Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-05T01:06:53Z)
Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-07-16T00:15:18Z)
Self-Supervised Learning via multi-Transformation Classification for Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。 C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文参考訳（メタデータ） (2021-02-20T16:11:26Z)
Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文参考訳（メタデータ） (2021-01-21T10:42:48Z)
Memory-augmented Dense Predictive Coding for Video Representation Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2020-08-03T17:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。