論文の概要: Matryoshka Representations for Adaptive Deployment
- arxiv url: http://arxiv.org/abs/2205.13147v1
- Date: Thu, 26 May 2022 04:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:12:55.065889
- Title: Matryoshka Representations for Adaptive Deployment
- Title(参考訳): 適応配置のためのmatryoshka表現
- Authors: Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford,
Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham
Kakade, Prateek Jain, Ali Farhadi
- Abstract要約: Matryoshka Representation Learningは、下流タスクの計算制約に適応するために、単一の埋め込みを可能にする。
MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。
MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった、Webスケールのデータセットにシームレスに拡張する。
- 参考スコア(独自算出の注目度): 34.58318085205547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned representations are a central component in modern ML systems, serving
a multitude of downstream tasks. When training such representations, it is
often the case that computational and statistical constraints for each
downstream task are unknown. In this context rigid, fixed capacity
representations can be either over or under-accommodating to the task at hand.
This leads us to ask: can we design a flexible representation that can adapt to
multiple downstream tasks with varying computational resources? Our main
contribution is Matryoshka Representation Learning (MRL) which encodes
information at different granularities and allows a single embedding to adapt
to the computational constraints of downstream tasks. MRL minimally modifies
existing representation learning pipelines and imposes no additional cost
during inference and deployment. MRL learns coarse-to-fine representations that
are at least as accurate and rich as independently trained low-dimensional
representations. The flexibility within the learned Matryoshka Representations
offer: (a) up to 14x smaller embedding size for ImageNet-1K classification at
the same level of accuracy; (b) up to 14x real-world speed-ups for large-scale
retrieval on ImageNet-1K and 4K; and (c) up to 2% accuracy improvements for
long-tail few-shot classification, all while being as robust as the original
representations. Finally, we show that MRL extends seamlessly to web-scale
datasets (ImageNet, JFT) across various modalities -- vision (ViT, ResNet),
vision + language (ALIGN) and language (BERT). MRL code and pretrained models
are open-sourced at https://github.com/RAIVNLab/MRL.
- Abstract(参考訳): 学習された表現は現代のMLシステムにおいて中心的なコンポーネントであり、多くの下流タスクに役立ちます。
このような表現を訓練する場合、下流の各タスクに対する計算的および統計的制約が未知であることが多い。
この文脈では、固定容量表現は、手元にあるタスクにオーバーまたはアンダーアコメンテーションできる。
さまざまな計算リソースを使って、複数のダウンストリームタスクに適応可能な柔軟な表現を設計できますか?
私たちの主な貢献はmatryoshka representation learning(mrl)で、異なる粒度で情報をエンコードし、ダウンストリームタスクの計算制約に単一の埋め込みを可能にする。
MRLは、既存の表現学習パイプラインを最小限に修正し、推論とデプロイメントの間に追加のコストを課さない。
MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。
学習されたmatryoshka表現の柔軟性は下記のとおりである。
(a)同じ精度でImageNet-1K分類を行う場合、最大14倍の埋め込みサイズ。
(b)ImageNet-1Kと4Kの大規模検索のための実世界の14倍の高速化
(c) ロングテール・マイノショット分類の精度は2%まで向上したが、いずれも元の表現と同じくらい頑健であった。
最後に、MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった様々なモードにわたるWebスケールデータセット(ImageNet、JFT)にシームレスに拡張可能であることを示す。
MRLコードと事前訓練されたモデルはhttps://github.com/RAIVNLab/MRLでオープンソース化されている。
関連論文リスト
- Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Provable and Efficient Continual Representation Learning [40.78975699391065]
連続学習(CL)では、悲惨なことを忘れずに一連のタスクを学習できるモデルを設計することが目的である。
我々は、新しいタスクが到着するにつれて進化する表現を学習する連続表現学習の課題について研究する。
初期タスクが大きなサンプルサイズと高い"表現多様性"を持つ場合,CLのメリットが示される。
論文 参考訳(メタデータ) (2022-03-03T21:23:08Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。