論文の概要: Matryoshka Representations for Adaptive Deployment
- arxiv url: http://arxiv.org/abs/2205.13147v1
- Date: Thu, 26 May 2022 04:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:12:55.065889
- Title: Matryoshka Representations for Adaptive Deployment
- Title(参考訳): 適応配置のためのmatryoshka表現
- Authors: Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford,
Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham
Kakade, Prateek Jain, Ali Farhadi
- Abstract要約: Matryoshka Representation Learningは、下流タスクの計算制約に適応するために、単一の埋め込みを可能にする。
MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。
MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった、Webスケールのデータセットにシームレスに拡張する。
- 参考スコア(独自算出の注目度): 34.58318085205547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned representations are a central component in modern ML systems, serving
a multitude of downstream tasks. When training such representations, it is
often the case that computational and statistical constraints for each
downstream task are unknown. In this context rigid, fixed capacity
representations can be either over or under-accommodating to the task at hand.
This leads us to ask: can we design a flexible representation that can adapt to
multiple downstream tasks with varying computational resources? Our main
contribution is Matryoshka Representation Learning (MRL) which encodes
information at different granularities and allows a single embedding to adapt
to the computational constraints of downstream tasks. MRL minimally modifies
existing representation learning pipelines and imposes no additional cost
during inference and deployment. MRL learns coarse-to-fine representations that
are at least as accurate and rich as independently trained low-dimensional
representations. The flexibility within the learned Matryoshka Representations
offer: (a) up to 14x smaller embedding size for ImageNet-1K classification at
the same level of accuracy; (b) up to 14x real-world speed-ups for large-scale
retrieval on ImageNet-1K and 4K; and (c) up to 2% accuracy improvements for
long-tail few-shot classification, all while being as robust as the original
representations. Finally, we show that MRL extends seamlessly to web-scale
datasets (ImageNet, JFT) across various modalities -- vision (ViT, ResNet),
vision + language (ALIGN) and language (BERT). MRL code and pretrained models
are open-sourced at https://github.com/RAIVNLab/MRL.
- Abstract(参考訳): 学習された表現は現代のMLシステムにおいて中心的なコンポーネントであり、多くの下流タスクに役立ちます。
このような表現を訓練する場合、下流の各タスクに対する計算的および統計的制約が未知であることが多い。
この文脈では、固定容量表現は、手元にあるタスクにオーバーまたはアンダーアコメンテーションできる。
さまざまな計算リソースを使って、複数のダウンストリームタスクに適応可能な柔軟な表現を設計できますか?
私たちの主な貢献はmatryoshka representation learning(mrl)で、異なる粒度で情報をエンコードし、ダウンストリームタスクの計算制約に単一の埋め込みを可能にする。
MRLは、既存の表現学習パイプラインを最小限に修正し、推論とデプロイメントの間に追加のコストを課さない。
MRLは、独立に訓練された低次元表現と同じくらい正確でリッチな粗大な表現を学習する。
学習されたmatryoshka表現の柔軟性は下記のとおりである。
(a)同じ精度でImageNet-1K分類を行う場合、最大14倍の埋め込みサイズ。
(b)ImageNet-1Kと4Kの大規模検索のための実世界の14倍の高速化
(c) ロングテール・マイノショット分類の精度は2%まで向上したが、いずれも元の表現と同じくらい頑健であった。
最後に、MRLは、視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった様々なモードにわたるWebスケールデータセット(ImageNet、JFT)にシームレスに拡張可能であることを示す。
MRLコードと事前訓練されたモデルはhttps://github.com/RAIVNLab/MRLでオープンソース化されている。
関連論文リスト
- Efficient Multimodal Learning from Data-centric Perspective [22.429612780327282]
本稿では, フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し, 凝縮学習データから効率的なマルチモーダル学習を実現する。
注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。
非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。
RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-18T07:17:09Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - CLIP4MC: An RL-Friendly Vision-Language Model for Minecraft [32.447102147806206]
本稿では,新しいクロスモーダル・コントラスト学習フレームワークであるCLIP4MCを提案する。
我々は、オープンエンドタスクの報酬関数として機能するRLフレンドリーな視覚言語モデルを学ぶ。
我々は,MineDojoが提供する大規模YouTubeデータベースに基づいて,優れたYouTubeデータセットを構築した。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Provable and Efficient Continual Representation Learning [40.78975699391065]
連続学習(CL)では、悲惨なことを忘れずに一連のタスクを学習できるモデルを設計することが目的である。
我々は、新しいタスクが到着するにつれて進化する表現を学習する連続表現学習の課題について研究する。
初期タスクが大きなサンプルサイズと高い"表現多様性"を持つ場合,CLのメリットが示される。
論文 参考訳(メタデータ) (2022-03-03T21:23:08Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。