論文の概要: Investigating the Role of Attribute Context in Vision-Language Models
for Object Recognition and Detection
- arxiv url: http://arxiv.org/abs/2303.10093v2
- Date: Mon, 6 Nov 2023 20:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:42:10.215947
- Title: Investigating the Role of Attribute Context in Vision-Language Models
for Object Recognition and Detection
- Title(参考訳): 物体認識・検出のための視覚言語モデルにおける属性コンテキストの役割の検討
- Authors: Kyle Buettner, Adriana Kovashka
- Abstract要約: メソッドはオブジェクトクラス名がどの程度うまく学習されているかという点で評価されるが、キャプションには豊富な属性コンテキストも含まれている。
タスクが属性やオブジェクトの理解を必要とする場合、モデルが成功するかどうかだけでなく、学習においてこのコンテキストをどのように利用するかは明らかではない。
その結果, 属性コンテキストは, 検出のためのアライメントを学習する際には無駄になり, 属性の意味は埋め込みにおいて適切に考慮されず, 属性のみによるクラス記述は非効率であることが示唆された。
- 参考スコア(独自算出の注目度): 33.77415850289717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language alignment learned from image-caption pairs has been shown to
benefit tasks like object recognition and detection. Methods are mostly
evaluated in terms of how well object class names are learned, but captions
also contain rich attribute context that should be considered when learning
object alignment. It is unclear how methods use this context in learning, as
well as whether models succeed when tasks require attribute and object
understanding. To address this gap, we conduct extensive analysis of the role
of attributes in vision-language models. We specifically measure model
sensitivity to the presence and meaning of attribute context, gauging influence
on object embeddings through unsupervised phrase grounding and classification
via description methods. We further evaluate the utility of attribute context
in training for open-vocabulary object detection, fine-grained text-region
retrieval, and attribution tasks. Our results show that attribute context can
be wasted when learning alignment for detection, attribute meaning is not
adequately considered in embeddings, and describing classes by only their
attributes is ineffective. A viable strategy that we find to increase benefits
from attributes is contrastive training with adjective-based negative captions.
- Abstract(参考訳): 画像キャプチャペアから学習した視覚言語アライメントは、オブジェクト認識や検出といったタスクに役立つことが示されている。
メソッドは主に、オブジェクトクラス名がどの程度うまく学習されているかという観点で評価されるが、キャプションには、オブジェクトアライメントを学ぶ際に考慮すべきリッチな属性コンテキストも含まれている。
学習におけるこのコンテキストの使い方や、タスクが属性やオブジェクト理解を必要とする場合にモデルが成功するかどうかは不明だ。
このギャップに対処するために,視覚言語モデルにおける属性の役割を広範囲に分析する。
具体的には,属性コンテキストの存在と意味に対するモデルの感度を測定し,教師なし句の接地と記述手法による分類による対象埋め込みへの影響を計測する。
さらに,オープンボキャブラリーオブジェクト検出,きめ細かいテキスト領域検索,帰属タスクの訓練における属性コンテキストの有用性について検討した。
その結果, 属性コンテキストは, 検出のためのアライメントを学習する際には無駄になり, 属性の意味は埋め込みにおいて適切に考慮されず, 属性のみによるクラス記述は有効ではないことがわかった。
属性の利点を高めるための有効な戦略は、形容詞に基づく否定的なキャプションによる対照的な訓練である。
関連論文リスト
- ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。
画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。
生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文 参考訳(メタデータ) (2024-08-07T21:44:29Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - LOWA: Localize Objects in the Wild with Attributes [8.922263691331912]
本稿では,自然界における属性を持つ物体の局所化手法であるLOWAについて述べる。
これは、インスタンスレベルの属性分類の欠如と希少なクラス名によって制限されている、現在のオープン語彙オブジェクト検出器の不足に対処することを目的としている。
論文 参考訳(メタデータ) (2023-05-31T17:21:24Z) - Open-vocabulary Attribute Detection [38.5017012867974]
本稿では,Open-Vocabulary Attribute DetectionタスクとOVADベンチマークを紹介する。
新たなタスクとベンチマークの目的は、視覚言語モデルによって学習されたオブジェクトレベルの属性情報を探索することである。
全体として、ベンチマークは14万のアノテーションで構成されている。
論文 参考訳(メタデータ) (2022-11-23T12:34:43Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。