論文の概要: Learning to Generalize without Bias for Open-Vocabulary Action Recognition
- arxiv url: http://arxiv.org/abs/2502.20158v2
- Date: Thu, 24 Jul 2025 08:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:41.111823
- Title: Learning to Generalize without Bias for Open-Vocabulary Action Recognition
- Title(参考訳): 開語彙行動認識のためのバイアスのない一般化学習
- Authors: Yating Yu, Congqi Cao, Yifan Zhang, Yanning Zhang,
- Abstract要約: オープンボキャブラリ動作認識のための静的デバイアス処理を備えた新しいメタ最適化フレームワークであるOpen-MeDeを紹介する。
我々は,Open-MeDeが,文脈内オープン語彙行動認識に適した最先端の正規化手法を超えるだけでなく,文脈外シナリオではかなり優れていることを示す。
- 参考スコア(独自算出の注目度): 43.7854169327642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the effective visual-text alignment and static generalizability from CLIP, recent video learners adopt CLIP initialization with further regularization or recombination for generalization in open-vocabulary action recognition in-context. However, due to the static bias of CLIP, such video learners tend to overfit on shortcut static features, thereby compromising their generalizability, especially to novel out-of-context actions. To address this issue, we introduce Open-MeDe, a novel Meta-optimization framework with static Debiasing for Open-vocabulary action recognition. From a fresh perspective of generalization, Open-MeDe adopts a meta-learning approach to improve known-to-open generalizing and image-to-video debiasing in a cost-effective manner. Specifically, Open-MeDe introduces a cross-batch meta-optimization scheme that explicitly encourages video learners to quickly generalize to arbitrary subsequent data via virtual evaluation, steering a smoother optimization landscape. In effect, the free of CLIP regularization during optimization implicitly mitigates the inherent static bias of the video meta-learner. We further apply self-ensemble over the optimization trajectory to obtain generic optimal parameters that can achieve robust generalization to both in-context and out-of-context novel data. Extensive evaluations show that Open-MeDe not only surpasses state-of-the-art regularization methods tailored for in-context open-vocabulary action recognition but also substantially excels in out-of-context scenarios.Code is released at https://github.com/Mia-YatingYu/Open-MeDe.
- Abstract(参考訳): 最近のビデオ学習者は、CLIPからの効果的な視覚的テキストアライメントと静的一般化性を活用し、CLIPの初期化とさらなる正規化や再結合を採用して、オープン語彙のアクション認識における一般化を実現している。
しかし、CLIPの静的バイアスのため、このようなビデオ学習者は、静的な特徴のショートカットに過度に適合する傾向にあり、それによって、特に文脈外アクションの創出に、その一般化性が損なわれる。
この問題に対処するために,オープンボキャブラリ動作認識のための静的デバイアス処理を備えたメタ最適化フレームワークであるOpen-MeDeを紹介する。
一般化という新たな視点から、Open-MeDeはメタラーニングアプローチを採用し、既知の一般化と画像からビデオへのデバイアスをコスト効率良く改善する。
具体的には、Open-MeDeでは、ビデオ学習者が仮想評価によって任意のデータに素早く一般化し、よりスムーズな最適化環境を運営できるように、クロスバッチなメタ最適化スキームを導入している。
事実上、最適化中のCLIP正規化の自由は、ビデオメタリアの固有の静的バイアスを暗黙的に緩和する。
さらに、最適化軌跡に自己アンサンブルを適用して、文脈内および文脈外新奇データに頑健な一般化を達成できる汎用的最適パラメータを求める。
大規模な評価によると、Open-MeDeは、コンテキスト内オープンな動作認識に適した最先端の正規化メソッドを超えるだけでなく、アウトオブコンテクストのシナリオでも大幅に優れている。
関連論文リスト
- MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning [0.8249694498830561]
本稿では,マルチセマンティック・ガイド型コンテキスト最適化(MSGCoOp)フレームワークを提案する。
我々のアプローチは、並列学習可能なコンテキストベクトルのアンサンブルを利用して、多様な意味的側面をキャプチャする。
11のベンチマークデータセットの実験により、MSGCoOpはベース・ツー・ノーベルの一般化の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-29T13:15:09Z) - Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - A Simple Recipe for Language-guided Domain Generalized Segmentation [45.93202559299953]
トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
筆者らのレシピは, (i) 極小調整による内在的CLIPロバスト性の保存, (ii) 言語駆動型ローカルスタイル拡張, (iii) 訓練中のソースと拡張スタイルを局所的に混合したランダム化という3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - OpenFashionCLIP: Vision-and-Language Contrastive Learning with
Open-Source Fashion Data [40.70752781891058]
オープンソースファッションデータのみを取り入れた視覚・言語間のコントラスト学習手法であるOpenFashionCLIPを提案する。
提案手法は,いくつかのタスクやベンチマークにおいて広範囲に検証され,実験結果から領域外一般化能力が顕著に強調された。
論文 参考訳(メタデータ) (2023-09-11T15:36:03Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。