論文の概要: Learning to Generalize without Bias for Open-Vocabulary Action Recognition
- arxiv url: http://arxiv.org/abs/2502.20158v1
- Date: Thu, 27 Feb 2025 14:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:19.164335
- Title: Learning to Generalize without Bias for Open-Vocabulary Action Recognition
- Title(参考訳): 開語彙行動認識のためのバイアスのない一般化学習
- Authors: Yating Yu, Congqi Cao, Yifan Zhang, Yanning Zhang,
- Abstract要約: オープンボキャブラリ動作認識のための静的デバイアス処理を備えた新しいメタ最適化フレームワークであるOpen-MeDeを紹介する。
我々は,Open-MeDeが,文脈内オープン語彙行動認識に適した最先端の正規化手法を超えるだけでなく,文脈外シナリオではかなり優れていることを示す。
- 参考スコア(独自算出の注目度): 43.7854169327642
- License:
- Abstract: Leveraging the effective visual-text alignment and static generalizability from CLIP, recent video learners adopt CLIP initialization with further regularization or recombination for generalization in open-vocabulary action recognition in-context. However, due to the static bias of CLIP, such video learners tend to overfit on shortcut static features, thereby compromising their generalizability, especially to novel out-of-context actions. To address this issue, we introduce Open-MeDe, a novel Meta-optimization framework with static Debiasing for Open-vocabulary action recognition. From a fresh perspective of generalization, Open-MeDe adopts a meta-learning approach to improve known-to-open generalizing and image-to-video debiasing in a cost-effective manner. Specifically, Open-MeDe introduces a cross-batch meta-optimization scheme that explicitly encourages video learners to quickly generalize to arbitrary subsequent data via virtual evaluation, steering a smoother optimization landscape. In effect, the free of CLIP regularization during optimization implicitly mitigates the inherent static bias of the video meta-learner. We further apply self-ensemble over the optimization trajectory to obtain generic optimal parameters that can achieve robust generalization to both in-context and out-of-context novel data. Extensive evaluations show that Open-MeDe not only surpasses state-of-the-art regularization methods tailored for in-context open-vocabulary action recognition but also substantially excels in out-of-context scenarios.
- Abstract(参考訳): 最近のビデオ学習者は、CLIPからの効果的な視覚的テキストアライメントと静的一般化性を活用し、CLIPの初期化とさらなる正規化や再結合を採用して、オープン語彙のアクション認識における一般化を実現している。
しかし、CLIPの静的バイアスのため、このようなビデオ学習者は、静的な特徴のショートカットに過度に適合する傾向にあり、それによって、特に文脈外アクションの創出に、その一般化性が損なわれる。
この問題に対処するために,オープンボキャブラリ動作認識のための静的デバイアス処理を備えたメタ最適化フレームワークであるOpen-MeDeを紹介する。
一般化という新たな視点から、Open-MeDeはメタラーニングアプローチを採用し、既知の一般化と画像からビデオへのデバイアスをコスト効率良く改善する。
具体的には、Open-MeDeでは、ビデオ学習者が仮想評価によって任意のデータに素早く一般化し、よりスムーズな最適化環境を運営できるように、クロスバッチなメタ最適化スキームを導入している。
事実上、最適化中のCLIP正規化の自由は、ビデオメタリアの固有の静的バイアスを暗黙的に緩和する。
さらに、最適化軌跡に自己アンサンブルを適用して、文脈内および文脈外新奇データに頑健な一般化を達成できる汎用的最適パラメータを求める。
大規模な評価では、Open-MeDeは、文脈内オープン語彙の動作認識に適した最先端の正規化手法を超えるだけでなく、文脈外シナリオではかなり優れていることが示されている。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - A Simple Recipe for Language-guided Domain Generalized Segmentation [45.93202559299953]
トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
筆者らのレシピは, (i) 極小調整による内在的CLIPロバスト性の保存, (ii) 言語駆動型ローカルスタイル拡張, (iii) 訓練中のソースと拡張スタイルを局所的に混合したランダム化という3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Pseudo-Generalized Dynamic View Synthesis from a Video [91.69845210948566]
モノクロビデオで見るシーンを、新しい視点から見るのは、難しい問題だ。
動的シーンにはシーン固有の最適化手法が存在するが、私たちの知る限り、与えられたモノクロビデオから動的新規ビューを合成するための一般化方法が現在存在しない。
シーン固有の外観最適化が不要な擬似一般化プロセスが可能であるが、幾何学的かつ時間的に一貫した深さ推定が必要である。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - OpenFashionCLIP: Vision-and-Language Contrastive Learning with
Open-Source Fashion Data [40.70752781891058]
オープンソースファッションデータのみを取り入れた視覚・言語間のコントラスト学習手法であるOpenFashionCLIPを提案する。
提案手法は,いくつかのタスクやベンチマークにおいて広範囲に検証され,実験結果から領域外一般化能力が顕著に強調された。
論文 参考訳(メタデータ) (2023-09-11T15:36:03Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。