論文の概要: Multi-Token Enhancing for Vision Representation Learning
- arxiv url: http://arxiv.org/abs/2411.15787v1
- Date: Sun, 24 Nov 2024 11:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:51.078356
- Title: Multi-Token Enhancing for Vision Representation Learning
- Title(参考訳): 視覚表現学習のためのマルチToken Enhancing
- Authors: Zhong-Yu Li, Yu-Song Hu, Bo-Wen Yin, Ming-Ming Cheng,
- Abstract要約: 視覚表現学習、特に自己教師付き学習は、様々な視覚応用において重要である。
従来のアンサンブル戦略では、kモデルのアンサンブルに対して、K倍のトレーニングと推論コストが必要となる。
本稿では,複数の補助トークンを1つのモデルから同時に抽出し,表現学習を強化するMulti-Token Enhancing(MTE)を提案する。
- 参考スコア(独自算出の注目度): 56.27470175987989
- License:
- Abstract: Vision representation learning, especially self-supervised learning, is pivotal for various vision applications. Ensemble learning has also succeeded in enhancing the performance and robustness of the vision models. However, traditional ensemble strategies are impractical for representation learning, especially self-supervised representation learning that requires large-scale datasets and long schedules. This is because they require k times more training and inference computation costs for an ensemble of k models. Differently, we introduce Multi-Token Enhancing (MTE) that extracts multiple auxiliary tokens simultaneously from a single model to enhance representation learning, while incurring minimal additional training costs and no additional inference costs. These auxiliary tokens, including auxiliary CLS tokens and adaptively pooled tokens, capture complementary information due to their differences. Meanwhile, to address the increase in inference costs, we distill the knowledge acquired by the auxiliary tokens into a global token during pre-training. Consequently, we can discard the auxiliary tokens during inference without incurring additional costs. Our MTE is compatible with various self-supervised loss functions and architectures, consistently improving performances across different downstream tasks. Our source code will be made publicly available.
- Abstract(参考訳): 視覚表現学習、特に自己教師付き学習は、様々な視覚応用において重要である。
アンサンブル学習は、視覚モデルの性能と堅牢性の向上にも成功している。
しかし、従来のアンサンブル戦略は表現学習、特に大規模データセットと長期スケジュールを必要とする自己教師付き表現学習には実用的ではない。
これは、kモデルのアンサンブルに対して、k倍のトレーニングと推論計算コストを必要とするためである。
異なることに、Multi-Token Enhancing(MTE)を導入し、単一のモデルから複数の補助トークンを同時に抽出し、表現学習を強化するとともに、最小限のトレーニングコストと追加の推論コストを発生させる。
これらの補助トークンは、補助的なCLSトークンと適応的にプールされたトークンを含み、それらの違いのために補完的な情報をキャプチャする。
一方、推論コストの増加に対応するために、補助トークンが獲得した知識を事前学習中にグローバルトークンに蒸留する。
これにより、追加コストを発生させることなく、推論中に補助トークンを破棄することができる。
我々のMTEは、様々な自己教師付き損失関数やアーキテクチャと互換性があり、ダウンストリームタスク間のパフォーマンスを一貫して改善しています。
私たちのソースコードは公開されます。
関連論文リスト
- Learning Free Token Reduction for Multi-Modal LLM [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。
本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。