論文の概要: Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild
- arxiv url: http://arxiv.org/abs/2404.18459v1
- Date: Mon, 29 Apr 2024 06:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 14:36:46.012712
- Title: Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild
- Title(参考訳): Chameleon: 野生環境での視覚的予測のためのデータ効率の良いジェネラリスト
- Authors: Donggyun Kim, Seongwoong Cho, Semin Kim, Chong Luo, Seunghoon Hong,
- Abstract要約: 大規模言語モデルは、汎用言語インタフェースと大規模事前学習の恩恵を受け、データ効率のジェネラリストを進化させてきた。
しかし、濃密な視覚予測のためにデータ効率のよいジェネラリストを構築することは、異なるタスクにまたがるラベル構造の変化が原因で、大きな課題となる。
本研究では,不明瞭なラベル構造に柔軟に適用可能な普遍モデルについて,いくつかの例を挙げて検討する。
我々は,ビデオ,3D,医療,生物学的,ユーザインタラクションタスクなど,ローショット学習が望ましい実世界のシナリオの範囲で,我々のモデルを評価した。
- 参考スコア(独自算出の注目度): 32.33035216140421
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have evolved data-efficient generalists, benefiting from the universal language interface and large-scale pre-training. However, constructing a data-efficient generalist for dense visual prediction presents a distinct challenge due to the variation in label structures across different tasks. Consequently, generalization to unseen dense prediction tasks in the low-data regime is not straightforward and has received less attention from previous vision generalists. In this study, we explore a universal model that can flexibly adapt to unseen dense label structures with a few examples, enabling it to serve as a data-efficient vision generalist in diverse real-world scenarios. To this end, we base our method on a powerful meta-learning framework and explore several axes to improve its performance and versatility for real-world problems, such as flexible adaptation mechanisms and scalability. We evaluate our model across a spectrum of unseen real-world scenarios where low-shot learning is desirable, including video, 3D, medical, biological, and user-interactive tasks. Equipped with a generic architecture and an effective adaptation mechanism, our model flexibly adapts to all of these tasks with at most 50 labeled images, showcasing a significant advancement over existing data-efficient generalist approaches. Codes are available at https://github.com/GitGyun/chameleon.
- Abstract(参考訳): 大規模言語モデルは、汎用言語インタフェースと大規模事前学習の恩恵を受け、データ効率のジェネラリストを進化させてきた。
しかし、濃密な視覚予測のためにデータ効率のよいジェネラリストを構築することは、異なるタスクにまたがるラベル構造の変化が原因で、大きな課題となる。
その結果、低データ体制における密集予測タスクの一般化は簡単ではなく、以前のビジョンジェネラリストからはあまり注目されていない。
本研究では,多種多様な実世界のシナリオにおいて,データ効率のよいビジョンジェネラリストとして機能し得るような,高密度なラベル構造に柔軟に適用可能な普遍モデルについて検討する。
この目的のために,我々の手法は強力なメタラーニングフレームワークを基盤として,フレキシブル適応機構や拡張性といった実世界の問題に対して,その性能と汎用性を向上させるためにいくつかの軸を探索する。
我々は,ビデオ,3D,医療,生物学的,ユーザインタラクションタスクなど,ローショット学習が望ましい実世界のシナリオを網羅して,我々のモデルを評価した。
汎用アーキテクチャと効果的な適応機構を具備した我々のモデルは,50以上のラベル付き画像を用いて,これらすべてのタスクに柔軟に適応し,既存のデータ効率のジェネラリストアプローチよりも大幅に進歩したことを示す。
コードはhttps://github.com/GitGyun/chameleon.comで入手できる。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph
Classification [10.806893809269074]
本稿では,ロバストな特徴抽出器と非バイアスな分類器を共同で学習するRAHNet(Retrieval Augmented Hybrid Network)を提案する。
特徴抽出学習の段階において,各クラスにおけるクラス内多様性を直接強化する関係グラフを探索するグラフ検索モジュールを開発する。
また、分類表現を得るために、カテゴリー中心の教師付きコントラスト損失を革新的に最適化する。
論文 参考訳(メタデータ) (2023-08-04T14:06:44Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for
Unified Predictive Segments System [8.917697023052257]
統合述語セグメントシステムであるSuperConeについて述べる。
これは、各ユーザの異質なデジタルフットプリントを要約するフラットな概念表現の上に構築される。
様々な述語セグメントタスクにおいて、最先端のレコメンデーションとランキングアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2022-03-09T04:11:39Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。