Fugu-MT 論文翻訳(概要): Paxion: Patching Action Knowledge in Video-Language Foundation Models

論文の概要: Paxion: Patching Action Knowledge in Video-Language Foundation Models

arxiv url: http://arxiv.org/abs/2305.10683v4
Date: Sat, 21 Oct 2023 16:34:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 12:25:46.227236
Title: Paxion: Patching Action Knowledge in Video-Language Foundation Models
Title（参考訳）: Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング
Authors: Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji
Abstract要約: 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
参考スコア（独自算出の注目度）: 112.92853632161604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks. The code and data will be made publicly available for research purposes at https://github.com/MikeWangWZHL/Paxion.git.
Abstract（参考訳）: 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。コードとデータはhttps://github.com/MikeWangWZHL/Paxion.gitで公開されている。

関連論文リスト

Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文参考訳（メタデータ） (2025-02-28T21:38:17Z)
Language Model Guided Interpretable Video Action Reasoning [32.999621421295416]
我々はLanguage-guided Interpretable Action Recognition framework (LaIAR)という新しいフレームワークを提案する。 LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
論文参考訳（メタデータ） (2024-04-02T02:31:13Z)
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文参考訳（メタデータ） (2023-12-04T02:31:38Z)
DEVIAS: Learning Disentangled Video Representations of Action and Scene [3.336126457178601]
ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。本稿では,アンタングル型エンコーダデコーダアーキテクチャを提案し,単一のモデルを用いてアンタングル型アクションとシーン表現を学習する。提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
論文参考訳（メタデータ） (2023-11-30T18:58:44Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文参考訳（メタデータ） (2022-12-31T11:36:53Z)
Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文参考訳（メタデータ） (2022-11-24T09:42:46Z)
Rich Action-semantic Consistent Knowledge for Early Action Prediction [20.866206453146898]
早期行動予測(EAP)は、進行中のビデオにおける行動実行の一部から人間の行動を認識することを目的としている。独自の部分的あるいは完全なビデオを分割して、任意の進行レベルで進化する新しい部分的ビデオのシリーズを形成する。 The Rich Action-semantic Consistent Knowledge Network (RACK) under the teacher-student framework is proposed for EAP。
論文参考訳（メタデータ） (2022-01-23T03:39:31Z)
ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文参考訳（メタデータ） (2021-09-17T11:21:34Z)
Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。 2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文参考訳（メタデータ） (2020-08-13T15:51:42Z)
Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文参考訳（メタデータ） (2020-01-16T08:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。