論文の概要: ActAlign: Zero-Shot Fine-Grained Video Classification via Language-Guided Sequence Alignment
- arxiv url: http://arxiv.org/abs/2506.22967v1
- Date: Sat, 28 Jun 2025 17:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.651265
- Title: ActAlign: Zero-Shot Fine-Grained Video Classification via Language-Guided Sequence Alignment
- Title(参考訳): ActAlign:Zero-Shot Fine-Grained Video Classification by Language-Guided Sequence Alignment (英語)
- Authors: Amir Aghdam, Vincent Tao Hu,
- Abstract要約: 本稿では,ビデオ分類をシーケンスアライメントとして定式化するフレームワークであるActAlignを紹介する。
ActAlignは、非常に難しいActionAtlasベンチマークで30.5%の精度を達成している。
これらの結果は、構造化言語先行と古典的アライメント技術が組み合わさって、視覚言語モデルのオープンセット認識能力を開放し、きめ細かいビデオ理解を実現するためのスケーラブルで汎用的なアプローチを提供することを示した。
- 参考スコア(独自算出の注目度): 1.0852294343899487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the task of zero-shot fine-grained video classification, where no video examples or temporal annotations are available for unseen action classes. While contrastive vision-language models such as SigLIP demonstrate strong open-set recognition via mean-pooled image-text similarity, they fail to capture the temporal structure critical for distinguishing fine-grained activities. We introduce ActAlign, a zero-shot framework that formulates video classification as sequence alignment. For each class, a large language model generates an ordered sub-action sequence, which is aligned with video frames using Dynamic Time Warping (DTW) in a shared embedding space. Without any video-text supervision or fine-tuning, ActAlign achieves 30.5% accuracy on the extremely challenging ActionAtlas benchmark, where human accuracy is only 61.6%. ActAlign outperforms billion-parameter video-language models while using approximately 8x less parameters. These results demonstrate that structured language priors, combined with classical alignment techniques, offer a scalable and general approach to unlocking the open-set recognition potential of vision-language models for fine-grained video understanding.
- Abstract(参考訳): 我々は、ビデオの例や時間的アノテーションが見えないアクションクラスで利用できない、ゼロショットのきめ細かいビデオ分類の課題に対処する。
SigLIPのような対照的な視覚言語モデルは、平均プールされた画像-テキスト類似性を通して強力なオープンセット認識を示すが、細粒度の活動の識別に重要な時間構造を捉えられなかった。
本稿では、ビデオ分類をシーケンスアライメントとして定式化するゼロショットフレームワークであるActAlignを紹介する。
各クラスに対して、大きな言語モデルが順序付きサブアクションシーケンスを生成し、共有埋め込み空間における動的時間ウォーピング(DTW)を用いてビデオフレームと整列する。
ビデオテキストの監督や微調整がなければ、ActAlignは極めて困難なActionAtlasベンチマークで30.5%の精度を達成し、人間の精度は61.6%に過ぎなかった。
ActAlignは、約8倍のパラメータを使用しながら、10億パラメトリックのビデオ言語モデルを上回っている。
これらの結果は、構造化言語先行と古典的アライメント技術が組み合わさって、視覚言語モデルのオープンセット認識能力を開放し、きめ細かいビデオ理解を実現するためのスケーラブルで汎用的なアプローチを提供することを示した。
関連論文リスト
- Storyboard guided Alignment for Fine-grained Video Action Recognition [32.02631248389487]
微細なビデオアクション認識は、ビデオテキストマッチング問題として概念化することができる。
i) 異なるグローバルなセマンティクスを持つビデオは、類似したアトミックなアクションや外観を共有し、(ii) ビデオ内のアトミックなアクションは、瞬間的、遅い、あるいは、グローバルなビデオセマンティクスと直接的に関係しない、という2つの観察に基づく多粒度フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:40:41Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition [16.828560953073495]
本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。
我々は各フレームのエンティティ・ツー・リージョンのアライメントを利用して、領域認識画像の埋め込みをオフラインで構築したテキストコーパスにマッチングすることでアライメントを実現する。
ALTは計算コストを著しく低く保ちながら、競争性能を示す。
論文 参考訳(メタデータ) (2023-11-27T08:32:28Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。