Fugu-MT 論文翻訳(概要): Leveraging Temporal Contextualization for Video Action Recognition

論文の概要: Leveraging Temporal Contextualization for Video Action Recognition

arxiv url: http://arxiv.org/abs/2404.09490v1
Date: Mon, 15 Apr 2024 06:24:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 13:19:30.743146
Title: Leveraging Temporal Contextualization for Video Action Recognition
Title（参考訳）: 映像行動認識のための時間的文脈化の活用
Authors: Minji Kim, Dongyoon Han, Taekyung Kim, Bohyung Han,
Abstract要約: 本稿では,ビデオ理解の先駆的フレームワークであるTemporally Contextualized CLIP (TC-CLIP)を紹介する。本稿では,ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を提案する。我々は,TC-CLIPを検証するため,ゼロショット,少数ショット,ベース・ツー・ノーベル,完全教師付きアクション認識において広範な実験を行う。
参考スコア（独自算出の注目度）: 47.8361303269338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained vision-language models have shown effectiveness in video understanding. However, recent studies have not sufficiently leveraged essential temporal information from videos, simply averaging frame-wise representations or referencing consecutive frames. We introduce Temporally Contextualized CLIP (TC-CLIP), a pioneering framework for video understanding that effectively and efficiently leverages comprehensive video information. We propose Temporal Contextualization (TC), a novel layer-wise temporal information infusion mechanism for video that extracts core information from each frame, interconnects relevant information across the video to summarize into context tokens, and ultimately leverages the context tokens during the feature encoding process. Furthermore, our Video-conditional Prompting (VP) module manufactures context tokens to generate informative prompts in text modality. We conduct extensive experiments in zero-shot, few-shot, base-to-novel, and fully-supervised action recognition to validate the superiority of our TC-CLIP. Ablation studies for TC and VP guarantee our design choices. Code is available at https://github.com/naver-ai/tc-clip
Abstract（参考訳）: 事前訓練された視覚言語モデルは、ビデオ理解において有効であることが示されている。しかし、近年の研究では、フレーム単位の表現を単純に平均化したり、連続したフレームを参照したりすることで、ビデオから必須の時間情報を十分に活用していない。ビデオ理解の先駆的フレームワークであるTemporally Contextualized CLIP(TC-CLIP)を導入し,包括的映像情報の有効かつ効率的に活用する。本稿では,各フレームからコア情報を抽出し,関連情報を相互に関連付けてコンテクストトークンに要約し,最終的に特徴符号化プロセスにおいてコンテキストトークンを活用する,ビデオの階層的時間情報注入機構であるTemporal Contextualization(TC)を提案する。さらに,ビデオ条件プロンプティング(VP)モジュールはコンテキストトークンを生成し,テキストのモダリティで情報的プロンプトを生成する。我々は,TC-CLIPの優位性を検証するため,ゼロショット,少数ショット,ベース・ツー・ノーベル,完全教師付きアクション認識において広範な実験を行う。 TCとVPのアブレーション研究は、私たちの設計選択を保証します。コードはhttps://github.com/naver-ai/tc-clipで入手できる。

関連論文リスト

Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文参考訳（メタデータ） (2025-04-14T17:34:06Z)
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。 Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文参考訳（メタデータ） (2025-04-07T22:35:36Z)
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。 CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文参考訳（メタデータ） (2024-08-15T14:47:44Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding [22.59291334338824]
相関ガイドによる検出TRansformerは、クエリ関連ビデオクリップのヒントを提供する。 CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-15T10:22:35Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T13:07:05Z)
Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文参考訳（メタデータ） (2021-08-08T15:11:20Z)
Context-aware Biaffine Localizing Network for Temporal Sentence Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。 TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-22T03:13:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。