論文の概要: PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects
- arxiv url: http://arxiv.org/abs/2407.16696v1
- Date: Tue, 23 Jul 2024 17:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:16:18.562383
- Title: PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects
- Title(参考訳): PartGLEE:任意のオブジェクトを認識し解析するための基礎モデル
- Authors: Junyi Li, Junfeng Wu, Weizhi Zhao, Song Bai, Xiang Bai,
- Abstract要約: 画像中の物体と部分の位置と識別のための部分レベル基礎モデルであるPartGLEEを提案する。
PartGLEEは、オープンワールドシナリオにおけるあらゆる粒度のインスタンスの検出、セグメンテーション、グラウンド化を達成する。
- 参考スコア(独自算出の注目度): 104.34288029037141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PartGLEE, a part-level foundation model for locating and identifying both objects and parts in images. Through a unified framework, PartGLEE accomplishes detection, segmentation, and grounding of instances at any granularity in the open world scenario. Specifically, we propose a Q-Former to construct the hierarchical relationship between objects and parts, parsing every object into corresponding semantic parts. By incorporating a large amount of object-level data, the hierarchical relationships can be extended, enabling PartGLEE to recognize a rich variety of parts. We conduct comprehensive studies to validate the effectiveness of our method, PartGLEE achieves the state-of-the-art performance across various part-level tasks and obtain competitive results on object-level tasks. The proposed PartGLEE significantly enhances hierarchical modeling capabilities and part-level perception over our previous GLEE model. Further analysis indicates that the hierarchical cognitive ability of PartGLEE is able to facilitate a detailed comprehension in images for mLLMs. The model and code will be released at https://provencestar.github.io/PartGLEE-Vision/ .
- Abstract(参考訳): 画像中の物体と部分の位置と識別のための部分レベル基礎モデルであるPartGLEEを提案する。
PartGLEEは統一されたフレームワークを通じて、オープンワールドシナリオにおけるあらゆる粒度のインスタンスの検出、セグメンテーション、グラウンド化を実現している。
具体的には、オブジェクトとパーツ間の階層的関係を構築するためのQ-Formerを提案し、各オブジェクトを対応する意味部分に解析する。
大量のオブジェクトレベルのデータを組み込むことで、階層的な関係を拡張することができ、PartGLEEは多様な部分を認識することができる。
提案手法の有効性を検証するために包括的研究を行い,その成果を様々な部分レベルタスクで達成し,オブジェクトレベルタスクの競争結果を得る。
提案したPartGLEEは,従来のGLEEモデルよりも階層的モデリング能力と部分レベルの認識能力を大幅に向上させる。
さらに分析したところ、PartGLEEの階層的認知能力は、mLLMの画像の詳細な理解を促進することができることが示された。
モデルとコードはhttps://provencestar.github.io/PartGLEE-Vision/でリリースされる。
関連論文リスト
- FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - OV-PARTS: Towards Open-Vocabulary Part Segmentation [31.136262413989858]
多様な物体の部分の分割と認識は、様々なコンピュータビジョンやロボットタスクにまたがるアプリケーションにおいて重要な能力である。
本稿では,これらの課題を調査・解決するためのOpen-Vocabulary Part (OV-PARTS)ベンチマークを提案する。
OV-PARTSには、Pascal-Part-116とADE20K--234という2つの公開データセットの洗練されたバージョンが含まれている。さらに、Generalized Zero-Shot Partアナログ、Cross-Dataset Part、Few-Shot Partという3つの特定のタスクもカバーしている。
論文 参考訳(メタデータ) (2023-10-08T10:28:42Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - GAPartNet: Cross-Category Domain-Generalizable Object Perception and
Manipulation via Generalizable and Actionable Parts [28.922958261132475]
我々はGAParts(Generalizable and Actionable Parts)を通してクロスカテゴリスキルを学ぶ
GAPartNetに基づいて,部分分割,部分ポーズ推定,部分ベースオブジェクト操作という3つのクロスカテゴリタスクについて検討する。
本手法は,見知らぬカテゴリーによらず,既存の手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-11-10T00:30:22Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。