論文の概要: Open-vocabulary Attribute Detection
- arxiv url: http://arxiv.org/abs/2211.12914v1
- Date: Wed, 23 Nov 2022 12:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:20:13.909463
- Title: Open-vocabulary Attribute Detection
- Title(参考訳): open-vocabulary属性検出
- Authors: Mar\'ia A. Bravo, Sudhanshu Mittal, Simon Ging, Thomas Brox
- Abstract要約: 本稿では,Open-Vocabulary Attribute DetectionタスクとOVADベンチマークを紹介する。
新たなタスクとベンチマークの目的は、視覚言語モデルによって学習されたオブジェクトレベルの属性情報を探索することである。
全体として、ベンチマークは14万のアノテーションで構成されている。
- 参考スコア(独自算出の注目度): 38.5017012867974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language modeling has enabled open-vocabulary tasks where predictions
can be queried using any text prompt in a zero-shot manner. Existing
open-vocabulary tasks focus on object classes, whereas research on object
attributes is limited due to the lack of a reliable attribute-focused
evaluation benchmark. This paper introduces the Open-Vocabulary Attribute
Detection (OVAD) task and the corresponding OVAD benchmark. The objective of
the novel task and benchmark is to probe object-level attribute information
learned by vision-language models. To this end, we created a clean and densely
annotated test set covering 117 attribute classes on the 80 object classes of
MS COCO. It includes positive and negative annotations, which enables
open-vocabulary evaluation. Overall, the benchmark consists of 1.4 million
annotations. For reference, we provide a first baseline method for
open-vocabulary attribute detection. Moreover, we demonstrate the benchmark's
value by studying the attribute detection performance of several foundation
models. Project page https://ovad-benchmark.github.io/
- Abstract(参考訳): 視覚言語モデリングにより、ゼロショットで任意のテキストプロンプトを使って予測をクエリできるオープン語彙タスクが可能になった。
既存のオープン語彙タスクはオブジェクトクラスにフォーカスするが、オブジェクト属性の研究は信頼性のある属性中心の評価ベンチマークが欠如しているため限られている。
本稿では,Open-Vocabulary Attribute Detection (OVAD)タスクとそれに対応するOVADベンチマークを紹介する。
新しいタスクとベンチマークの目的は、視覚言語モデルによって学習されるオブジェクトレベルの属性情報を調べることである。
この目的のために、MS COCOの80のオブジェクトクラスに117の属性クラスを含むクリーンで高密度な注釈付きテストセットを作成しました。
オープンボキャブラリー評価を可能にする、ポジティブなアノテーションとネガティブなアノテーションが含まれている。
全体として、ベンチマークは140万のアノテーションで構成されている。
参考までに,open-vocabulary属性検出のための最初のベースライン手法を提案する。
さらに,いくつかの基礎モデルの属性検出性能を調べ,ベンチマーク値を示す。
プロジェクトページ https://ovad-benchmark.github.io/
関連論文リスト
- CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.46562066023117]
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-08T08:36:12Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - Investigating the Role of Attribute Context in Vision-Language Models
for Object Recognition and Detection [33.77415850289717]
メソッドはオブジェクトクラス名がどの程度うまく学習されているかという点で評価されるが、キャプションには豊富な属性コンテキストも含まれている。
タスクが属性やオブジェクトの理解を必要とする場合、モデルが成功するかどうかだけでなく、学習においてこのコンテキストをどのように利用するかは明らかではない。
その結果, 属性コンテキストは, 検出のためのアライメントを学習する際には無駄になり, 属性の意味は埋め込みにおいて適切に考慮されず, 属性のみによるクラス記述は非効率であることが示唆された。
論文 参考訳(メタデータ) (2023-03-17T16:14:37Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。