論文の概要: Not just Birds and Cars: Generic, Scalable and Explainable Models for
Professional Visual Recognition
- arxiv url: http://arxiv.org/abs/2403.05703v1
- Date: Fri, 8 Mar 2024 22:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:54:31.480763
- Title: Not just Birds and Cars: Generic, Scalable and Explainable Models for
Professional Visual Recognition
- Title(参考訳): 鳥と車だけでなく、プロの視覚認識のためのジェネリック、スケーラブル、説明可能なモデル
- Authors: Junde Wu and Jiayuan Zhu and Min Xu and Yueming Jin
- Abstract要約: 本稿では,プロの視覚認識タスクを解くために,スケーラブルで説明可能なモデルを設計することを目的とする。
生物にインスパイアされたPro-NeXt構造を導入し、Pro-NeXtが様々な専門分野にまたがるかなりの一般化性を示すことを示した。
- 参考スコア(独自算出の注目度): 20.56973599145523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Some visual recognition tasks are more challenging then the general ones as
they require professional categories of images. The previous efforts, like
fine-grained vision classification, primarily introduced models tailored to
specific tasks, like identifying bird species or car brands with limited
scalability and generalizability. This paper aims to design a scalable and
explainable model to solve Professional Visual Recognition tasks from a generic
standpoint. We introduce a biologically-inspired structure named Pro-NeXt and
reveal that Pro-NeXt exhibits substantial generalizability across diverse
professional fields such as fashion, medicine, and art-areas previously
considered disparate. Our basic-sized Pro-NeXt-B surpasses all preceding
task-specific models across 12 distinct datasets within 5 diverse domains.
Furthermore, we find its good scaling property that scaling up Pro-NeXt in
depth and width with increasing GFlops can consistently enhances its accuracy.
Beyond scalability and adaptability, the intermediate features of Pro-NeXt
achieve reliable object detection and segmentation performance without extra
training, highlighting its solid explainability. We will release the code to
foster further research in this area.
- Abstract(参考訳): 一部の視覚認識タスクは、プロのイメージのカテゴリを必要とするため、一般的なタスクよりも難しい。
これまでの細かなビジョン分類のような取り組みでは、鳥種や自動車ブランドの識別などの特定のタスクに合わせて、スケーラビリティと汎用性に制限のあるモデルを主に導入していた。
本稿では,汎用的な視点から専門的な視覚認識タスクを解くために,スケーラブルで説明可能なモデルを設計することを目的とする。
Pro-NeXtという生物学的にインスパイアされた構造を導入し、Pro-NeXtはファッション、医療、アートなど様々な専門分野にまたがって、これまでは異なっていた領域でかなりの一般化性を示すことを示した。
我々の基本サイズのpro-next-bは、5つの異なるドメイン内の12の異なるデータセットにまたがって、以前のタスク固有のモデルをすべて上回っています。
さらに,GFlopsの増加に伴うPro-NeXtの深さと幅のスケールアップにより,その精度を継続的に向上できる,優れたスケーリング特性が得られた。
スケーラビリティと適応性を超えて、pro-nextの中間機能は、追加のトレーニングなしで信頼できるオブジェクト検出とセグメンテーション性能を実現し、強固な説明可能性を強調している。
この分野のさらなる研究を促進するために、コードを公開します。
関連論文リスト
- GraphFM: A Scalable Framework for Multi-Graph Pretraining [2.882104808886318]
本稿では,さまざまな領域のグラフデータセットにまたがるノード分類タスクに適した,スケーラブルなマルチグラフ・マルチタスク事前学習手法を提案する。
我々は,740万以上のノードと1億1900万のエッジからなる152のグラフデータセットのモデルをトレーニングすることで,このアプローチの有効性を実証する。
以上の結果から,多種多様な実・合成グラフの事前学習により適応性と安定性が向上し,最先端のスペシャリストモデルと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-07-16T16:51:43Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。
マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。
厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2024-04-10T14:24:10Z) - Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse Prompts [68.86537322287474]
多様なプロンプトを持つ低レイテンシで高品質な対話的セグメンテーションは、スペシャリストやジェネラリストモデルでは難しい。
我々は、低レイテンシ、高品質、多様なプロンプトサポートを提供する次世代インタラクティブセグメンテーションアプローチであるSegNextを提案する。
本手法は,HQSeg-44KとDAVISにおいて,定量的かつ定性的に,最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-03-31T17:02:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文 参考訳(メタデータ) (2023-09-19T16:09:01Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Open-domain Visual Entity Recognition: Towards Recognizing Millions of
Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文 参考訳(メタデータ) (2023-02-22T05:31:26Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for
Unified Predictive Segments System [8.917697023052257]
統合述語セグメントシステムであるSuperConeについて述べる。
これは、各ユーザの異質なデジタルフットプリントを要約するフラットな概念表現の上に構築される。
様々な述語セグメントタスクにおいて、最先端のレコメンデーションとランキングアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2022-03-09T04:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。