論文の概要: Kronecker Mask and Interpretive Prompts are Language-Action Video Learners
- arxiv url: http://arxiv.org/abs/2502.03549v2
- Date: Fri, 07 Feb 2025 16:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 11:34:27.447259
- Title: Kronecker Mask and Interpretive Prompts are Language-Action Video Learners
- Title(参考訳): Kronecker Mask and Interpretive Prompts are Language-Action Video Learners
- Authors: Jingyi Yang, Zitong Yu, Xiuming Ni, Jia He, Hui Li,
- Abstract要約: 対照的な言語イメージ事前学習は、画像に基づく視覚学習を大幅に進歩させた。
近年の研究では、行動認識のためのCLIPのテキストまたは視覚分岐の調整に焦点が当てられている。
両ブランチの適応は不可欠である、と我々は主張する。
- 参考スコア(独自算出の注目度): 23.325272595629773
- License:
- Abstract: Contrastive language-image pretraining (CLIP) has significantly advanced image-based vision learning. A pressing topic subsequently arises: how can we effectively adapt CLIP to the video domain? Recent studies have focused on adjusting either the textual or visual branch of CLIP for action recognition. However, we argue that adaptations of both branches are crucial. In this paper, we propose \textbf{CLAVER}: a \textbf{C}ontrastive \textbf{L}anguage-\textbf{A}ction \textbf{V}ideo Learn\textbf{er}, designed to shift CLIP's focus from the alignment of static visual objects and concrete nouns to the alignment of dynamic action behaviors and abstract verbs. Specifically, we introduce a novel Kronecker mask attention for temporal modeling. Our tailored Kronecker mask offers three benefits 1) it expands the temporal receptive field for each token, 2) it serves as an effective spatiotemporal heterogeneity inductive bias, mitigating the issue of spatiotemporal homogenization, and 3) it can be seamlessly plugged into transformer-based models. Regarding the textual branch, we leverage large language models to generate diverse, sentence-level and semantically rich interpretive prompts of actions, which shift the model's focus towards the verb comprehension. Extensive experiments on various benchmarks and learning scenarios demonstrate the superiority and generality of our approach. The code will be available soon.
- Abstract(参考訳): 対照的な言語画像事前学習(CLIP)は、画像に基づく視覚学習を著しく進歩させた。
CLIPをビデオドメインに効果的に適応させるには、どうすればよいのか?
近年の研究では、行動認識のためのCLIPのテキストまたは視覚分岐の調整に焦点が当てられている。
しかし、両枝の適応は重要であると論じる。
本稿では,静的な視覚オブジェクトや具体的な名詞のアライメントから,動的行動行動や抽象動詞のアライメントへとCLIPの焦点を移すように設計された,a \textbf{C}ontrastive \textbf{L}anguage-\textbf{A}ction \textbf{V}ideo Learn\textbf{er}を提案する。
具体的には、時間的モデリングのための新しいクロネッカーマスクアテンションを導入する。
カスタマイズされたKroneckerマスクには3つのメリットがあります
1)各トークンの時間受容領域を拡大する。
2)時空間均一性誘導バイアスとして有効であり、時空間均質化の問題を軽減する。
3)トランスフォーマーベースのモデルにシームレスに接続できる。
文の分岐に関して、我々は大きな言語モデルを利用して、多様で文レベルで、意味的にリッチな行動の解釈プロンプトを生成し、そのモデルが動詞理解に焦点を移す。
様々なベンチマークや学習シナリオに関する大規模な実験は、我々のアプローチの優位性と一般性を示している。
コードはまもなく利用可能になる。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Mask Grounding for Referring Image Segmentation [42.69973300692365]
Referring Image(RIS)は、自由形式の言語表現によって参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
最先端のSOTA(State-of-the-art)手法の多くは、画素やワードレベルでの言語・画像のモダリティのギャップを被っている。
本稿では,言語機能内の視覚的グラウンド化を大幅に改善する,新しいマスクグラウンド化補助タスクを提案する。
論文 参考訳(メタデータ) (2023-12-19T14:34:36Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。