論文の概要: INTERN: A New Learning Paradigm Towards General Vision
- arxiv url: http://arxiv.org/abs/2111.08687v1
- Date: Tue, 16 Nov 2021 18:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 13:31:38.728560
- Title: INTERN: A New Learning Paradigm Towards General Vision
- Title(参考訳): InterN: 一般ビジョンに向けた新たな学習パラダイム
- Authors: Jing Shao, Siyu Chen, Yangguang Li, Kun Wang, Zhenfei Yin, Yinan He,
Jianing Teng, Qinghong Sun, Mengya Gao, Jihao Liu, Gengshi Huang, Guanglu
Song, Yichao Wu, Yuming Huang, Fenggang Liu, Huan Peng, Shuo Qin, Chengyu
Wang, Yujie Wang, Conghui He, Ding Liang, Yu Liu, Fengwei Yu, Junjie Yan,
Dahua Lin, Xiaogang Wang, Yu Qiao
- Abstract要約: 我々はInterNという新しい学習パラダイムを開発した。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
- 参考スコア(独自算出の注目度): 117.3343347061931
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enormous waves of technological innovations over the past several years,
marked by the advances in AI technologies, are profoundly reshaping the
industry and the society. However, down the road, a key challenge awaits us,
that is, our capability of meeting rapidly-growing scenario-specific demands is
severely limited by the cost of acquiring a commensurate amount of training
data. This difficult situation is in essence due to limitations of the
mainstream learning paradigm: we need to train a new model for each new
scenario, based on a large quantity of well-annotated data and commonly from
scratch. In tackling this fundamental problem, we move beyond and develop a new
learning paradigm named INTERN. By learning with supervisory signals from
multiple sources in multiple stages, the model being trained will develop
strong generalizability. We evaluate our model on 26 well-known datasets that
cover four categories of tasks in computer vision. In most cases, our models,
adapted with only 10% of the training data in the target domain, outperform the
counterparts trained with the full set of data, often by a significant margin.
This is an important step towards a promising prospect where such a model with
general vision capability can dramatically reduce our reliance on data, thus
expediting the adoption of AI technologies. Furthermore, revolving around our
new paradigm, we also introduce a new data system, a new architecture, and a
new benchmark, which, together, form a general vision ecosystem to support its
future development in an open and inclusive manner.
- Abstract(参考訳): ここ数年、AI技術の進歩に代表される技術革新の波は、業界と社会を大きく変えつつある。
しかし、将来的には、急速に成長するシナリオ特有の要求を満たす能力が、定期的なトレーニングデータを取得するコストによって著しく制限される、という重要な課題が待ち受けている。
この困難な状況は、基本的には主流の学習パラダイムの制限によるものです – 大量の注釈付きデータと一般的にスクラッチから、新しいシナリオ毎に新しいモデルをトレーニングする必要があります。
この根本的な問題に取り組む中で、私たちは、internという新しい学習パラダイムを先取りして発展させます。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
コンピュータビジョンにおけるタスクの4つのカテゴリをカバーする26の既知のデータセットについて評価した。
ほとんどの場合、私たちのモデルは、ターゲットドメイン内のトレーニングデータのわずか10%に適応しており、トレーニング対象のトレーニング対象を、完全なデータセットで、多くの場合かなりのマージンで上回っています。
これは、一般的なビジョン能力を備えたモデルが、データへの依存を劇的に減らし、AI技術の採用を迅速化する、有望な展望に向けた重要なステップである。
さらに,新しいパラダイムを振り返って,新しいデータシステム,新しいアーキテクチャ,新しいベンチマークを導入して,オープンで包括的な方法で将来の開発をサポートする汎用的なビジョンエコシステムを形成します。
関連論文リスト
- Big Cooperative Learning [7.958840888809145]
基礎モデルのトレーニングは,大きな協調学習の一形態として解釈できることを示す。
本稿では,多目的データサンプリング機能を備えた新しい逆学習基盤モデルであるBigLearn-GANを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:59:14Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - A Survey of Serverless Machine Learning Model Inference [0.0]
ジェネレーティブAI、コンピュータビジョン、自然言語処理は、AIモデルをさまざまな製品に統合するきっかけとなった。
本調査は,大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し,分類することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T18:46:05Z) - A Comprehensive Study on Model Initialization Techniques Ensuring
Efficient Federated Learning [0.0]
フェデレートラーニング(FL)は、分散とプライバシ保護の方法で機械学習モデルをトレーニングするための有望なパラダイムとして登場した。
モデルに使用される手法の選択は、フェデレーション学習システムの性能、収束速度、通信効率、プライバシー保証において重要な役割を果たす。
本研究は,各手法のメリットとデメリットを慎重に比較,分類,記述し,さまざまなFLシナリオに適用性について検討する。
論文 参考訳(メタデータ) (2023-10-31T23:26:58Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Neurosymbolic AI for Situated Language Understanding [13.249453757295083]
我々は,これらの学習課題に対する解法として,計算位置定位法が有効であると主張している。
我々のモデルは、古典的なAIの考えをニューロシンボリックインテリジェンス(英語版)の枠組みに再組み入れている。
我々は、さまざまなAI学習課題に対して、位置情報が多様なデータと複数のレベルのモデリングを提供する方法について論じる。
論文 参考訳(メタデータ) (2020-12-05T05:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。