論文の概要: Aligning and Prompting Everything All at Once for Universal Visual
Perception
- arxiv url: http://arxiv.org/abs/2312.02153v1
- Date: Mon, 4 Dec 2023 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 13:56:40.489584
- Title: Aligning and Prompting Everything All at Once for Universal Visual
Perception
- Title(参考訳): すべてを一度に調整して証明するユニバーサル・ビジュアル・パーセプション
- Authors: Yunhang Shen, Chaoyou Fu, Peixian Chen, Mengdan Zhang, Ke Li, Xing
Sun, Yunsheng Wu, Shaohui Lin, Rongrong Ji
- Abstract要約: APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
- 参考スコア(独自算出の注目度): 79.96124061108728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models have been explored recently to build general-purpose
vision systems. However, predominant paradigms, driven by casting
instance-level tasks as an object-word alignment, bring heavy cross-modality
interaction, which is not effective in prompting object detection and visual
grounding. Another line of work that focuses on pixel-level tasks often
encounters a large annotation gap of things and stuff, and suffers from mutual
interference between foreground-object and background-class segmentation. In
stark contrast to the prevailing methods, we present APE, a universal visual
perception model for aligning and prompting everything all at once in an image
to perform diverse tasks, i.e., detection, segmentation, and grounding, as an
instance-level sentence-object matching paradigm. Specifically, APE advances
the convergence of detection and grounding by reformulating language-guided
grounding as open-vocabulary detection, which efficiently scales up model
prompting to thousands of category vocabularies and region descriptions while
maintaining the effectiveness of cross-modality fusion. To bridge the
granularity gap of different pixel-level tasks, APE equalizes semantic and
panoptic segmentation to proxy instance learning by considering any isolated
regions as individual instances. APE aligns vision and language representation
on broad data with natural and challenging characteristics all at once without
task-specific fine-tuning. The extensive experiments on over 160 datasets
demonstrate that, with only one-suit of weights, APE outperforms (or is on par
with) the state-of-the-art models, proving that an effective yet universal
perception for anything aligning and prompting is indeed feasible. Codes and
trained models are released at https://github.com/shenyunhang/APE.
- Abstract(参考訳): ビジョンファウンデーションモデルは最近、汎用ビジョンシステムを構築するために研究されている。
しかし、インスタンスレベルのタスクをオブジェクトと単語のアライメントとしてキャストすることで駆動される主要なパラダイムは、オブジェクト検出と視覚的な接地を促すのに効果的ではない、重いクロスモダリティインタラクションをもたらす。
ピクセルレベルのタスクに焦点を当てた別の作業行は、しばしば物や物の大きなアノテーションギャップに遭遇し、前景オブジェクトと背景クラスセグメンテーションの相互干渉に悩まされる。
一般的な手法とは対照的に,画像中の全てのことを一斉に調整・促進する汎用視覚知覚モデルであるAPEを,インスタンスレベルの文オブジェクトマッチングパラダイムとして,検出,セグメンテーション,グラウンド化といった多様なタスクを実行する。
特に、apは言語ガイドによる接地をオープンボキャブラリー検出として再構成することで、検出と接地を収束させ、何千ものカテゴリーボキャブラリーや地域記述に促すモデルを効率的にスケールさせながら、相互モダリティ融合の有効性を維持している。
異なるピクセルレベルのタスクの粒度のギャップを埋めるために、APEはセマンティックとパノプティクスのセグメンテーションを等しくし、独立したリージョンを個別のインスタンスとして考慮することで、インスタンス学習をプロキシする。
APEは、視覚と言語表現を、タスク固有の微調整なしで、自然で困難な特徴と一致させる。
160以上のデータセットに対する広範な実験により、APEは1スーツの重みしか持たず、最先端のモデルよりも優れている(あるいは同等である)ことが示され、アライメントとプロンプトのための効果的な、そして普遍的な認識が実際に実現可能であることが証明された。
コードとトレーニングされたモデルはhttps://github.com/shenyunhang/APE.orgで公開されている。
関連論文リスト
- AffordanceLLM: Grounding Affordance from Vision Language Models [39.174767240504714]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Evaluation of Audio-Visual Alignments in Visually Grounded Speech Models [2.1320960069210484]
本研究は,視覚的接地音声(VGS)モデルを用いたマルチモーダル学習の研究である。
視覚オブジェクトと音声単語の整列におけるモデル性能評価のための体系的指標を提案する。
クロスモーダル・アテンションはモデルのセマンティック・クロスモーダル検索性能の向上に役立つことを示す。
論文 参考訳(メタデータ) (2021-07-05T12:54:05Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。