論文の概要: Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding
- arxiv url: http://arxiv.org/abs/2602.16545v1
- Date: Wed, 18 Feb 2026 15:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.635068
- Title: Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding
- Title(参考訳): Zero-Shot Classifier Edits for Fine-Grained Video Understanding (動画)
- Authors: Kaiting Liu, Hazel Doughty,
- Abstract要約: カテゴリ分割は、既存の分類器を編集して粗いカテゴリをより細かなサブカテゴリに分割し、他の場所で精度を保つという新しいタスクである。
本稿では,ビデオ分類器の潜時構成構造を利用したゼロショット編集手法を提案する。
カテゴリ分割のための新しいビデオベンチマーク実験により、我々の手法は視覚言語ベースラインを著しく上回り、他の部分のパフォーマンスを犠牲にすることなく、新しく分割されたカテゴリの精度を向上することを示した。
- 参考スコア(独自算出の注目度): 13.563595491615237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video recognition models are typically trained on fixed taxonomies which are often too coarse, collapsing distinctions in object, manner or outcome under a single label. As tasks and definitions evolve, such models cannot accommodate emerging distinctions and collecting new annotations and retraining to accommodate such changes is costly. To address these challenges, we introduce category splitting, a new task where an existing classifier is edited to refine a coarse category into finer subcategories, while preserving accuracy elsewhere. We propose a zero-shot editing method that leverages the latent compositional structure of video classifiers to expose fine-grained distinctions without additional data. We further show that low-shot fine-tuning, while simple, is highly effective and benefits from our zero-shot initialization. Experiments on our new video benchmarks for category splitting demonstrate that our method substantially outperforms vision-language baselines, improving accuracy on the newly split categories without sacrificing performance on the rest. Project page: https://kaitingliu.github.io/Category-Splitting/.
- Abstract(参考訳): ビデオ認識モデルは、通常、固定された分類学に基づいて訓練される。
タスクと定義が進化するにつれて、このようなモデルは新たな区別に対応できず、新しいアノテーションを集め、そのような変更に対応するために再訓練することはコストがかかる。
これらの課題に対処するために,既存の分類器を編集して,より細かなカテゴリに分割し,精度を保ちながら,より細かなサブカテゴリに分割する作業であるカテゴリ分割を導入する。
本稿では,ビデオ分類器の潜時構成構造を利用したゼロショット編集手法を提案する。
さらに、低ショットの微調整は単純ではあるが、非常に効果的であり、ゼロショットの初期化の恩恵を受けていることを示す。
カテゴリ分割のための新しいビデオベンチマーク実験により、我々の手法は視覚言語ベースラインを著しく上回り、他の部分のパフォーマンスを犠牲にすることなく、新しく分割されたカテゴリの精度を向上することを示した。
プロジェクトページ:https://kaitingliu.github.io/Category-Splitting/。
関連論文リスト
- Small sample-based adaptive text classification through iterative and contrastive description refinement [0.0]
大規模言語モデル(LLM)は、進化する知識とあいまいなカテゴリ境界を持つ領域の一般化に苦慮することが多い。
本稿では,反復的トピック洗練,コントラスト的プロンプト,アクティブラーニングを組み合わせた分類フレームワークを提案する。
このフレームワークはHuman-in-the-loopコンポーネントを備えており、自然言語でカテゴリ定義を導入したり、改訂したりすることができる。
論文 参考訳(メタデータ) (2025-08-01T11:12:38Z) - Just Say the Word: Annotation-Free Fine-Grained Object Counting [22.31750687552324]
細粒度オブジェクトカウントは、クラスに依存しないカウントモデルにとって依然として大きな課題である。
カテゴリ名を与えられた場合、合成画像と擬似ラベルを用いてプロンプトからコンパクトな概念を組み込む。
この埋め込み条件は、凍結したカウンタからの生のオーバーカウントを正確にカテゴリー別推定に洗練する特殊化モジュールである。
論文 参考訳(メタデータ) (2025-04-16T02:05:47Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Boosting few-shot classification with view-learnable contrastive
learning [19.801016732390064]
埋め込み空間の細粒度構造を学習するために,数ショットの分類に対照的な損失を導入する。
我々は,同じ画像の異なるビューを自動的に生成する学習学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-20T03:13:33Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z) - Latent Embedding Feedback and Discriminative Features for Zero-Shot
Classification [139.44681304276]
ゼロショット学習は、トレーニング中にデータが利用できない、見えないカテゴリを分類することを目的としている。
Generative Adrial Networksは、クラス固有のセマンティック埋め込みを利用して、目に見えないクラス機能を合成する。
我々は,ゼロショット学習のすべての段階において,意味的一貫性を強制することを提案する。
論文 参考訳(メタデータ) (2020-03-17T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。