論文の概要: On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding
- arxiv url: http://arxiv.org/abs/2603.02546v1
- Date: Tue, 03 Mar 2026 03:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.610564
- Title: On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding
- Title(参考訳): 識別型対生成型分類器:行動理解のためのMLLMの再考
- Authors: Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener, Angela Yao,
- Abstract要約: 閉集合行動理解のためのGAD(Generation-Assisted Discriminative Discriminative)を提案する。
GADは微調整時にのみ動作し、MLLMの事前訓練と完全な互換性を保つ。
時間的行動理解ベンチマークの実験により、GADは生成法よりも精度と効率を向上することが示された。
- 参考スコア(独自算出の注目度): 53.55135022958052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have advanced open-world action understanding and can be adapted as generative classifiers for closed-set settings by autoregressively generating action labels as text. However, this approach is inefficient, and shared subwords across action labels introduce semantic overlap, leading to ambiguity in generation. In contrast, discriminative classifiers learn task-specific representations with clear decision boundaries, enabling efficient one-step classification without autoregressive decoding. We first compare generative and discriminative classifiers with MLLMs for closed-set action understanding, revealing the superior accuracy and efficiency of the latter. To bridge the performance gap, we design strategies that elevate generative classifiers toward performance comparable with discriminative ones. Furthermore, we show that generative modeling can complement discriminative classifiers, leading to better performance while preserving efficiency. To this end, we propose Generation-Assisted Discriminative~(GAD) classifier for closed-set action understanding. GAD operates only during fine-tuning, preserving full compatibility with MLLM pretraining. Extensive experiments on temporal action understanding benchmarks demonstrate that GAD improves both accuracy and efficiency over generative methods, achieving state-of-the-art results on four tasks across five datasets, including an average 2.5% accuracy gain and 3x faster inference on our largest COIN benchmark.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、オープンワールドのアクション理解を進歩させ、テキストとして自動回帰的にアクションラベルを生成することで、クローズドセット設定のための生成的分類子として適用することができる。
しかし、このアプローチは非効率であり、アクションラベル間の共有サブワードは意味的な重複を導入し、世代間の曖昧さをもたらす。
対照的に、識別的分類器は明確な決定境界を持つタスク固有の表現を学習し、自己回帰的復号化なしで効率的なワンステップ分類を可能にする。
まず、生成的および識別的分類器とMLLMを比較し、後者の精度と効率性を明らかにする。
性能ギャップを埋めるために、生成的分類器を差別的なものに匹敵する性能に高める戦略を設計する。
さらに、生成的モデリングは識別的分類器を補完し、効率を保ちながら性能を向上することを示した。
この目的のために、我々はクローズドセット動作理解のための生成支援識別〜(GAD)分類器を提案する。
GADは微調整時にのみ動作し、MLLMの事前訓練と完全な互換性を保つ。
時間的行動理解ベンチマークに関する大規模な実験により、GADは生成手法よりも精度と効率を向上し、最大のCOINベンチマークでは平均2.5%の精度向上と3倍の高速化を含む5つのデータセットにわたる4つのタスクの最先端結果を達成することが示された。
関連論文リスト
- GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition [3.695767900907561]
CLLMFSは、Few-Shot Named Entity RecognitionのためのContrastive LearningEnhanced Large Language Modelフレームワークである。
Low-Rank Adaptation (LoRA)と、数発のNER用に特別に調整された対照的な学習メカニズムを統合している。
提案手法は,F1スコアの現行性能を2.58%から97.74%まで向上させた。
論文 参考訳(メタデータ) (2024-08-23T04:44:05Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Multiple Classifiers Based Maximum Classifier Discrepancy for
Unsupervised Domain Adaptation [25.114533037440896]
本稿では、2つの分類器の構造を複数の分類器に拡張し、その性能をさらに向上することを提案する。
平均的に、3つの分類器の構造を採用すると、精度と効率のトレードオフとして最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-02T03:00:13Z) - Discriminative-Generative Representation Learning for One-Class Anomaly
Detection [22.500931323372303]
生成法と識別法を組み合わせた自己教師型学習フレームワークを提案する。
提案手法は,複数のベンチマークデータセットにおいて,最先端の処理性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-27T11:46:15Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。