論文の概要: Webly Supervised Concept Expansion for General Purpose Vision Models
- arxiv url: http://arxiv.org/abs/2202.02317v1
- Date: Fri, 4 Feb 2022 18:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 14:06:58.644012
- Title: Webly Supervised Concept Expansion for General Purpose Vision Models
- Title(参考訳): 汎用視覚モデルのためのwebly教師付き概念拡張
- Authors: Amita Kamath, Christopher Clark, Tanmay Gupta, Eric Kolve, Derek
Hoiem, Aniruddha Kembhavi
- Abstract要約: 汎用視覚(GPV)システムは、アーキテクチャの変更を必要とせず、幅広い視覚的タスクを解決するように設計されている。
完全な教師付きデータセットからスキルを学び、Webイメージ検索結果から概念を学び、GPVの重要な特徴である、スキル間で視覚的知識を伝達する能力を活用する。
- 参考スコア(独自算出の注目度): 33.34323471292769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General purpose vision (GPV) systems are models that are designed to solve a
wide array of visual tasks without requiring architectural changes. Today, GPVs
primarily learn both skills and concepts from large fully supervised datasets.
Scaling GPVs to tens of thousands of concepts by acquiring data to learn each
concept for every skill quickly becomes prohibitive. This work presents an
effective and inexpensive alternative: learn skills from fully supervised
datasets, learn concepts from web image search results, and leverage a key
characteristic of GPVs -- the ability to transfer visual knowledge across
skills. We use a dataset of 1M+ images spanning 10k+ visual concepts to
demonstrate webly-supervised concept expansion for two existing GPVs (GPV-1 and
VL-T5) on 3 benchmarks - 5 COCO based datasets (80 primary concepts), a newly
curated series of 5 datasets based on the OpenImages and VisualGenome
repositories (~500 concepts) and the Web-derived dataset (10k+ concepts). We
also propose a new architecture, GPV-2 that supports a variety of tasks -- from
vision tasks like classification and localization to vision+language tasks like
QA and captioning to more niche ones like human-object interaction recognition.
GPV-2 benefits hugely from web data, outperforms GPV-1 and VL-T5 across these
benchmarks, and does well in a 0-shot setting at action and attribute
recognition.
- Abstract(参考訳): 汎用視覚(GPV)システムは、アーキテクチャの変更を必要とせず、幅広い視覚的タスクを解決するために設計されたモデルである。
今日、GPVは主に、大規模な完全に教師付きデータセットからスキルと概念を学ぶ。
GPVを数万のコンセプトにスケールするには、各スキルのそれぞれの概念を学ぶためにデータを取得する必要がある。
完全な教師付きデータセットからスキルを学び、Webイメージ検索結果から概念を学び、GPVの重要な特徴である、スキル間で視覚的知識を伝達する能力を活用する。
10k以上のビジュアル概念にまたがる1M以上のイメージのデータセットを使用して、既存のGPV(GPV-1とVL-T5)を3つのベンチマーク(5つのCOCOベースのデータセット(80のプライマリ概念)、OpenImagesとVisualGenomeリポジトリ(約500のコンセプト)とWeb派生データセット(10k+概念)でWebに教師付きされたコンセプト拡張を示す。
分類やローカライゼーションといったビジョンタスクから、qaやキャプションといったビジョン+言語タスク、人間とオブジェクトのインタラクション認識のようなよりニッチなタスクに至るまで、さまざまなタスクをサポートする新しいアーキテクチャであるgpv-2も提案します。
GPV-2はWebデータから大きな恩恵を受けており、これらのベンチマークでGPV-1とVL-T5を上回っている。
関連論文リスト
- GRVFL-MV: Graph Random Vector Functional Link Based on Multi-View Learning [0.2999888908665658]
マルチビュー学習(GRVFL-MV)モデルに基づく新しいグラフランダムベクトル関数リンクを提案する。
提案モデルは,マルチビュー学習(MVL)の概念を取り入れて,複数の視点で学習する。
また、グラフ埋め込み(GE)フレームワークを使用して、すべてのビューの幾何学的性質も取り入れている。
論文 参考訳(メタデータ) (2024-09-07T07:18:08Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph [2.3143591448419074]
Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
論文 参考訳(メタデータ) (2023-09-24T11:19:13Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence? [106.81451807227103]
Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
論文 参考訳(メタデータ) (2023-03-31T17:56:33Z) - EVA: Exploring the Limits of Masked Visual Representation Learning at
Scale [46.952339726872374]
EVAは視覚中心の基盤モデルで、大規模に視覚表現の限界を探索する。
EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。
EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定させ、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回ります。
論文 参考訳(メタデータ) (2022-11-14T18:59:52Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。