論文の概要: UFO: Unified Feature Optimization
- arxiv url: http://arxiv.org/abs/2207.10341v1
- Date: Thu, 21 Jul 2022 07:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:01:09.293602
- Title: UFO: Unified Feature Optimization
- Title(参考訳): UFO: 統一された機能最適化
- Authors: Teng Xi, Yifan Sun, Deli Yu, Bi Li, Nan Peng, Gang Zhang, Xinyu Zhang,
Zhigang Wang, Jinwen Chen, Jian Wang, Lufei Liu, Haocheng Feng, Junyu Han,
Jingtuo Liu, Errui Ding and Jingdong Wang
- Abstract要約: 本稿では、深層モデルの訓練と展開のための新しい統一特徴最適化(UFO)パラダイムを提案する。
UFOは、すべてのタスクに対して大規模な事前訓練を行うことで、各タスクに利益をもたらすことを目指している。
UFOは、大規模な事前訓練の利点を維持しながら、柔軟な展開に優れた利便性を提供する。
- 参考スコア(独自算出の注目度): 67.77936811483664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel Unified Feature Optimization (UFO) paradigm for
training and deploying deep models under real-world and large-scale scenarios,
which requires a collection of multiple AI functions. UFO aims to benefit each
single task with a large-scale pretraining on all tasks. Compared with the well
known foundation model, UFO has two different points of emphasis, i.e.,
relatively smaller model size and NO adaptation cost: 1) UFO squeezes a wide
range of tasks into a moderate-sized unified model in a multi-task learning
manner and further trims the model size when transferred to down-stream tasks.
2) UFO does not emphasize transfer to novel tasks. Instead, it aims to make the
trimmed model dedicated for one or more already-seen task. With these two
characteristics, UFO provides great convenience for flexible deployment, while
maintaining the benefits of large-scale pretraining. A key merit of UFO is that
the trimming process not only reduces the model size and inference consumption,
but also even improves the accuracy on certain tasks. Specifically, UFO
considers the multi-task training and brings two-fold impact on the unified
model: some closely related tasks have mutual benefits, while some tasks have
conflicts against each other. UFO manages to reduce the conflicts and to
preserve the mutual benefits through a novel Network Architecture Search (NAS)
method. Experiments on a wide range of deep representation learning tasks
(i.e., face recognition, person re-identification, vehicle re-identification
and product retrieval) show that the model trimmed from UFO achieves higher
accuracy than its single-task-trained counterpart and yet has smaller model
size, validating the concept of UFO. Besides, UFO also supported the release of
17 billion parameters computer vision (CV) foundation model which is the
largest CV model in the industry.
- Abstract(参考訳): 本稿では,複数のAI関数のコレクションを必要とする,現実世界および大規模シナリオ下での深層モデルのトレーニングと展開のための新しい統一特徴最適化(UFO)パラダイムを提案する。
ufoは、すべてのタスクを大規模に事前トレーニングすることで、各タスクのメリットを享受することを目指している。
UFOは、よく知られた基礎モデルと比較すると、比較的小さなモデルサイズとNO適応コストという2つの重点がある。
1)UFOは,マルチタスク学習方式で,幅広いタスクを中規模統一モデルに絞り込み,下流タスクに移行する際のモデルサイズをさらに縮小する。
2)ufoは新規タスクへの移行を強調しない。
代わりに、1つ以上のタスク専用のトリミングモデルを作ることを目指している。
これら2つの特徴により、UFOは大規模事前訓練の利点を維持しつつ、柔軟な展開に優れた利便性を提供する。
UFOの重要な利点は、トリミングプロセスがモデルサイズと推論消費を減らすだけでなく、特定のタスクの精度も改善することである。
具体的には、UFOはマルチタスクトレーニングを考慮し、統一モデルに2倍の影響をもたらす。
UFOは、紛争を減らし、新しいネットワークアーキテクチャサーチ(NAS)手法によって相互利益を維持する。
幅広い深層表現学習タスク(顔認識、人物再識別、車両再識別、製品検索など)の実験では、UFOからトリミングされたモデルはシングルタスク訓練されたモデルよりも精度が高く、モデルサイズも小さく、UFOの概念を検証している。
さらにUFOは、業界最大のCVモデルである17億のパラメータコンピュータビジョン(CV)基盤モデルのリリースもサポートした。
関連論文リスト
- RingMo-Aerial: An Aerial Remote Sensing Foundation Model With A Affine Transformation Contrastive Learning [12.442430013205131]
本稿では,ARSビジョンの分野における基礎モデル研究のギャップを埋めることを目的としたRingMo-Aerialモデルを提案する。
小型目標に対するモデルの検出能力を向上し、ARSの特徴となる傾いた視角に最適化する。
実験により、RingMo-Aerialは複数の下流タスクにおいてSOTA性能を達成することを示した。
論文 参考訳(メタデータ) (2024-09-20T10:03:14Z) - SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。
本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文 参考訳(メタデータ) (2024-05-02T19:47:08Z) - UFO: Unidentified Foreground Object Detection in 3D Point Cloud [7.286344230797102]
既存の3Dオブジェクト検出器は、3Dローカライゼーションとアウト・オブ・ディストリビューション検出の両方において困難な課題に直面する。
評価プロトコル,方法論,ベンチマークの3つのタスクを含む新しいUFO検出フレームワークを提案する。
提案したフレームワークは、4つのベースライン検出器の全てにまたがる大きなマージンによって、継続的に性能を向上させる。
論文 参考訳(メタデータ) (2024-01-08T12:16:06Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based
Object Re-Identification [38.19907319079833]
UAVベースのオブジェクトReIDのバックボーンとして、畳み込みのない新しいマルチスケールアーキテクチャであるPraamid Vision Transformer(PVT)を用いるマルチタスク学習手法を提案する。
クラス内変動の不確実性モデリングにより、不確実性認識オブジェクトIDとカメラID情報の両方を用いて、提案手法を協調的に最適化することができる。
論文 参考訳(メタデータ) (2022-09-19T00:27:07Z) - UFO-ViT: High Performance Linear Vision Transformer without Softmax [0.0]
UFO-ViT(Unit Force Operated Vision Trnasformer)を提案する。
モデルは、ほとんどのキャパシティ・レシエーションを通して、画像分類と高密度予測タスクに関するほとんどのトランスフォーマーベースのモデルを達成する。
論文 参考訳(メタデータ) (2021-09-29T12:32:49Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。