論文の概要: InstrAct: Towards Action-Centric Understanding in Instructional Videos
- arxiv url: http://arxiv.org/abs/2604.08762v1
- Date: Thu, 09 Apr 2026 20:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.580831
- Title: InstrAct: Towards Action-Centric Understanding in Instructional Videos
- Title(参考訳): InstrAct: インストラクショナルビデオにおけるアクション中心理解に向けて
- Authors: Zhuoyi Yang, Jiapeng Yu, Reuben Tan, Boyang Li, Huijuan Xu,
- Abstract要約: InstrActionは、インストラクショナルビデオのアクション中心表現のための事前トレーニングフレームワークである。
まず、ノイズの多いキャプションをフィルタリングし、アクション中心のハードネガティブを生成する、データ駆動型戦略を導入する。
視覚的特徴レベルでは、Action Perceiverは、冗長なビデオエンコーディングからモーション関連トークンを抽出する。
- 参考スコア(独自算出の注目度): 12.356484522873577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding instructional videos requires recognizing fine-grained actions and modeling their temporal relations, which remains challenging for current Video Foundation Models (VFMs). This difficulty stems from noisy web supervision and a pervasive "static bias", where models rely on objects rather than motion cues. To address this, we propose InstrAction, a pretraining framework for instructional videos' action-centric representations. We first introduce a data-driven strategy, which filters noisy captions and generates action-centric hard negatives to disentangle actions from objects during contrastive learning. At the visual feature level, an Action Perceiver extracts motion-relevant tokens from redundant video encodings. Beyond contrastive learning, we introduce two auxiliary objectives: Dynamic Time Warping alignment (DTW-Align) for modeling sequential temporal structure, and Masked Action Modeling (MAM) for strengthening cross-modal grounding. Finally, we introduce the InstrAct Bench to evaluate action-centric understanding, where our method consistently outperforms state-of-the-art VFMs on semantic reasoning, procedural logic, and fine-grained retrieval tasks.
- Abstract(参考訳): 教示ビデオを理解するには、細かなアクションを認識し、その時間的関係をモデル化する必要があるが、現在のビデオファンデーションモデル(VFM)では依然として難しい。
この難しさは、ノイズの多いWeb監視と、モデルがモーションキューではなくオブジェクトに依存するような、広範に広がる"静的バイアス"に起因している。
そこで本研究では,インストラクショナルビデオのアクション中心表現のための事前学習フレームワークであるInstrActionを提案する。
まず、ノイズの多いキャプションをフィルタリングし、アクション中心のハードネガティブを生成して、対照的な学習中にオブジェクトからアクションをアンタングルする、データ駆動型戦略を導入する。
視覚的特徴レベルでは、Action Perceiverは、冗長なビデオエンコーディングからモーション関連トークンを抽出する。
コントラスト学習以外にも、逐次時間構造をモデル化するための動的時間ワーピングアライメント(DTW-Align)と、クロスモーダルグラウンドの強化のためのマスケッドアクションモデリング(MAM)の2つの補助的目的を導入する。
最後に、動作中心の理解を評価するためにInstrAct Benchを導入し、本手法はセマンティック推論、手続き論理、きめ細かい検索タスクにおいて、常に最先端のVFMよりも優れています。
関連論文リスト
- TrackMAE: Video Representation Learning via Track Mask and Predict [53.79942817343784]
Masked Video Modeling (MVM)は、シンプルでスケーラブルな自己教師付き事前トレーニングパラダイムとして登場した。
動作情報を復元信号として明示的に利用するシンプルなマスク付きビデオモデリングパラダイムであるTrackMAEを提案する。
我々は、さまざまな下流設定の6つのデータセットを評価し、TrackMAEが最先端のビデオ自己教師型学習ベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2026-03-28T13:35:23Z) - Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。
ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。
3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-11-19T12:11:36Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning [13.411096520754507]
既存のビデオキャプション手法は、単にオブジェクトの振舞いの浅いあるいは単純化した表現を提供するだけである。
本稿では,オブジェクトの振る舞いの本質を包括的に把握する動的アクション意味認識グラフ変換器を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:16:47Z) - ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。