論文の概要: Democratizing Fine-grained Visual Recognition with Large Language Models
- arxiv url: http://arxiv.org/abs/2401.13837v2
- Date: Sun, 10 Mar 2024 16:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:29:41.330711
- Title: Democratizing Fine-grained Visual Recognition with Large Language Models
- Title(参考訳): 大規模言語モデルによるきめ細かい視覚認識の民主化
- Authors: Mingxuan Liu, Subhankar Roy, Wenjing Li, Zhun Zhong, Nicu Sebe, Elisa
Ricci
- Abstract要約: 画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。
FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性によって引き起こされる。
本研究では,大規模言語モデル (LLM) の世界の知識をプロキシとして内部的に活用する,きめ細かなセマンティックカテゴリー推論(FineR)を提案する。
トレーニングフリーのFineRは、最先端のFGVRや言語、ビジョンアシスタントモデルより優れており、野生や新しい領域で働くことを約束しています。
- 参考スコア(独自算出の注目度): 80.49811421427167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying subordinate-level categories from images is a longstanding task
in computer vision and is referred to as fine-grained visual recognition
(FGVR). It has tremendous significance in real-world applications since an
average layperson does not excel at differentiating species of birds or
mushrooms due to subtle differences among the species. A major bottleneck in
developing FGVR systems is caused by the need of high-quality paired expert
annotations. To circumvent the need of expert knowledge we propose Fine-grained
Semantic Category Reasoning (FineR) that internally leverages the world
knowledge of large language models (LLMs) as a proxy in order to reason about
fine-grained category names. In detail, to bridge the modality gap between
images and LLM, we extract part-level visual attributes from images as text and
feed that information to a LLM. Based on the visual attributes and its internal
world knowledge the LLM reasons about the subordinate-level category names. Our
training-free FineR outperforms several state-of-the-art FGVR and language and
vision assistant models and shows promise in working in the wild and in new
domains where gathering expert annotation is arduous.
- Abstract(参考訳): 画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。
平均的な人間は、種によって微妙な違いがあるため、鳥類やキノコの種分化に精通していないため、現実世界の応用において極めて重要である。
FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性にある。
専門知識の必要性を回避するために,大言語モデル (LLM) の世界の知識をプロキシとして内部的に活用し,細粒度なカテゴリ名を推論する,細粒度セマンティックカテゴリー推論(FineR)を提案する。
詳細は,画像とLLMのモダリティギャップを埋めるために,画像から部分レベルの視覚的属性をテキストとして抽出し,その情報をLLMに供給する。
視覚属性とその内的世界知識に基づいて、llmの理由は下位レベルのカテゴリ名に関するものである。
トレーニングフリーのFinRは、最先端のFGVRおよび言語およびビジョンアシスタントモデルより優れており、専門家のアノテーションを集めることが困難な分野や新しい領域で働くことを約束している。
関連論文リスト
- Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。