論文の概要: Towards Open-Ended Visual Recognition with Large Language Model
- arxiv url: http://arxiv.org/abs/2311.08400v1
- Date: Tue, 14 Nov 2023 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:50:06.041433
- Title: Towards Open-Ended Visual Recognition with Large Language Model
- Title(参考訳): 大規模言語モデルによるオープンエンド視覚認識に向けて
- Authors: Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
- Abstract要約: 我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 27.56182473356992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing and recognizing objects in the open-ended physical world poses a
long-standing challenge within the domain of machine perception. Recent methods
have endeavored to address the issue by employing a class-agnostic mask (or
box) proposal model, complemented by an open-vocabulary classifier (e.g., CLIP)
using pre-extracted text embeddings. However, it is worth noting that these
open-vocabulary recognition models still exhibit limitations in practical
applications. On one hand, they rely on the provision of class names during
testing, where the recognition performance heavily depends on this predefined
set of semantic classes by users. On the other hand, when training with
multiple datasets, human intervention is required to alleviate the label
definition conflict between them. In this paper, we introduce the OmniScient
Model (OSM), a novel Large Language Model (LLM) based mask classifier, as a
straightforward and effective solution to the aforementioned challenges.
Specifically, OSM predicts class labels in a generative manner, thus removing
the supply of class names during both training and testing. It also enables
cross-dataset training without any human interference, exhibiting robust
generalization capabilities due to the world knowledge acquired from the LLM.
By combining OSM with an off-the-shelf mask proposal model, we present
promising results on various benchmarks, and demonstrate its effectiveness in
handling novel concepts. Code/model are available at
https://github.com/bytedance/OmniScient-Model.
- Abstract(参考訳): オープンエンドの物理的世界におけるオブジェクトのローカライズと認識は、マシン知覚の領域内で長年の課題となる。
最近の手法では、事前に抽出されたテキスト埋め込みを使用してオープン語彙分類器(例えばCLIP)で補完されるクラスに依存しないマスク(またはボックス)の提案モデルを用いてこの問題に対処している。
しかし、これらのオープン語彙認識モデルは、実用上はまだ限界がある。
一方で、テスト中はクラス名の提供に依存しており、ユーザによるこの事前に定義されたセマンティッククラスのセットに大きく依存している。
一方、複数のデータセットを用いたトレーニングでは、ラベル定義の衝突を軽減するために人間の介入が必要である。
本稿では、上記の課題に対する単純かつ効果的な解決法として、新しいLarge Language Model (LLM)ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
具体的には、OSMはクラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にし、LLMから得た世界的知識により、堅牢な一般化能力を示す。
osmを市販マスクの提案モデルと組み合わせることで,様々なベンチマークで有望な結果を示し,その新しい概念の取り扱いにおける効果を実証する。
コード/モデルはhttps://github.com/bytedance/OmniScient-Modelで入手できる。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Learning to recognize occluded and small objects with partial inputs [8.460351690226817]
Masked Supervised Learningは、マルチラベル画像認識のための1段階のモデルに依存しない学習パラダイムである。
MSLはランダムマスキングに頑健であり,非マスキング物体の認識に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-27T22:29:27Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。