論文の概要: ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling
- arxiv url: http://arxiv.org/abs/2408.04102v1
- Date: Wed, 7 Aug 2024 21:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:10:20.241230
- Title: ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling
- Title(参考訳): ArtVLM:ビジョンベースプレフィックス言語モデリングによる属性認識
- Authors: William Y. Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang,
- Abstract要約: 属性認識のための文生成に基づく検索定式化を提案する。
画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。
生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
- 参考スコア(独自算出の注目度): 32.55352435358949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing and disentangling visual attributes from objects is a foundation to many computer vision applications. While large vision language representations like CLIP had largely resolved the task of zero-shot object recognition, zero-shot visual attribute recognition remains a challenge because CLIP's contrastively-learned vision-language representation cannot effectively capture object-attribute dependencies. In this paper, we target this weakness and propose a sentence generation-based retrieval formulation for attribute recognition that is novel in 1) explicitly modeling a to-be-measured and retrieved object-attribute relation as a conditional probability graph, which converts the recognition problem into a dependency-sensitive language-modeling problem, and 2) applying a large pretrained Vision-Language Model (VLM) on this reformulation and naturally distilling its knowledge of image-object-attribute relations to use towards attribute recognition. Specifically, for each attribute to be recognized on an image, we measure the visual-conditioned probability of generating a short sentence encoding the attribute's relation to objects on the image. Unlike contrastive retrieval, which measures likelihood by globally aligning elements of the sentence to the image, generative retrieval is sensitive to the order and dependency of objects and attributes in the sentence. We demonstrate through experiments that generative retrieval consistently outperforms contrastive retrieval on two visual reasoning datasets, Visual Attribute in the Wild (VAW), and our newly-proposed Visual Genome Attribute Ranking (VGARank).
- Abstract(参考訳): オブジェクトから視覚的属性を認識したり遠ざけたりすることは、多くのコンピュータビジョンアプリケーションの基礎となっている。
CLIPのような大きな視覚言語表現は、ゼロショットのオブジェクト認識というタスクをほとんど解決していなかったが、対照的に学習した視覚言語表現は、オブジェクト属性の依存関係を効果的にキャプチャできないため、ゼロショットの視覚属性認識は依然として課題である。
本稿では,この弱点を対象とし,新しい属性認識のための文生成に基づく検索定式化を提案する。
1) 対象-属性関係を条件付き確率グラフとして明示的にモデル化し、認識問題を依存性に敏感な言語-モデリング問題に変換する。
2) 画像・物体・属性関係の知識を自然に抽出し, 属性認識に利用することを目的として, 大規模な事前学習型視覚・言語モデル(VLM)を適用した。
具体的には、画像上で認識される各属性に対して、画像上のオブジェクトに対する属性の関係をコードする短い文を生成する視覚条件付き確率を測定する。
文の要素を画像にグローバルにアライメントすることで、コントラッシブ検索と異なり、生成検索は文中のオブジェクトや属性の順序や依存性に敏感である。
我々は、生成的検索が2つの視覚的推論データセット、VAW(Visual Attribute in the Wild)と、新たに提案したVisual Genome Attribute Ranking(VGARank)において、コントラスト的検索を一貫して上回ることを示した。
関連論文リスト
- Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
VGG16畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダを用いた視覚記憶の主観的体験をモデル化した。
我々は,記憶可能性と復元誤差の関係について検討し,空間表現の特異性を評価するとともに,記憶可能性の予測を目的としたGRUモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Multi-modal Attribute Prompting for Vision-Language Models [40.39559705414497]
VLM(Pre-trained Vision-Language Models)は、タスクをダウンストリームする強力な一般化能力を示すが、少数のシナリオでは苦労する。
既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。
テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。
論文 参考訳(メタデータ) (2024-03-01T01:28:10Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Investigating the Role of Attribute Context in Vision-Language Models
for Object Recognition and Detection [33.77415850289717]
メソッドはオブジェクトクラス名がどの程度うまく学習されているかという点で評価されるが、キャプションには豊富な属性コンテキストも含まれている。
タスクが属性やオブジェクトの理解を必要とする場合、モデルが成功するかどうかだけでなく、学習においてこのコンテキストをどのように利用するかは明らかではない。
その結果, 属性コンテキストは, 検出のためのアライメントを学習する際には無駄になり, 属性の意味は埋め込みにおいて適切に考慮されず, 属性のみによるクラス記述は非効率であることが示唆された。
論文 参考訳(メタデータ) (2023-03-17T16:14:37Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。