論文の概要: LOWA: Localize Objects in the Wild with Attributes
- arxiv url: http://arxiv.org/abs/2305.20047v1
- Date: Wed, 31 May 2023 17:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:05:30.663350
- Title: LOWA: Localize Objects in the Wild with Attributes
- Title(参考訳): LOWA: 属性でオブジェクトをワイルドにローカライズ
- Authors: Xiaoyuan Guo, Kezhen Chen, Jinmeng Rao, Yawen Zhang, Baochen Sun, Jie
Yang
- Abstract要約: 本稿では,自然界における属性を持つ物体の局所化手法であるLOWAについて述べる。
これは、インスタンスレベルの属性分類の欠如と希少なクラス名によって制限されている、現在のオープン語彙オブジェクト検出器の不足に対処することを目的としている。
- 参考スコア(独自算出の注目度): 8.922263691331912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LOWA, a novel method for localizing objects with attributes
effectively in the wild. It aims to address the insufficiency of current
open-vocabulary object detectors, which are limited by the lack of
instance-level attribute classification and rare class names. To train LOWA, we
propose a hybrid vision-language training strategy to learn object detection
and recognition with class names as well as attribute information. With LOWA,
users can not only detect objects with class names, but also able to localize
objects by attributes. LOWA is built on top of a two-tower vision-language
architecture and consists of a standard vision transformer as the image encoder
and a similar transformer as the text encoder. To learn the alignment between
visual and text inputs at the instance level, we train LOWA with three training
steps: object-level training, attribute-aware learning, and free-text joint
training of objects and attributes. This hybrid training strategy first ensures
correct object detection, then incorporates instance-level attribute
information, and finally balances the object class and attribute sensitivity.
We evaluate our model performance of attribute classification and attribute
localization on the Open-Vocabulary Attribute Detection (OVAD) benchmark and
the Visual Attributes in the Wild (VAW) dataset, and experiments indicate
strong zero-shot performance. Ablation studies additionally demonstrate the
effectiveness of each training step of our approach.
- Abstract(参考訳): 本稿では,野生の属性を効果的にローカライズする新しい手法であるlowaを提案する。
これは、インスタンスレベルの属性分類の欠如と稀なクラス名によって制限されている、現在のオープン語彙オブジェクト検出器の不足に対処することを目的としている。
lowaを訓練するために,クラス名と属性情報を持つ物体検出と認識を学習するためのハイブリッド視覚言語学習戦略を提案する。
LOWAでは、ユーザーはクラス名を持つオブジェクトを検出するだけでなく、属性によってオブジェクトをローカライズすることもできる。
LOWAは2towerの視覚言語アーキテクチャ上に構築されており、画像エンコーダとしての標準的な視覚変換器とテキストエンコーダのような変換器で構成されている。
インスタンスレベルで視覚的入力とテキスト入力のアライメントを学ぶために、オブジェクトレベルのトレーニング、属性認識学習、オブジェクトと属性のフリーテキスト合同トレーニングという3つのトレーニングステップでlowaをトレーニングします。
このハイブリッドトレーニング戦略は、まず正しいオブジェクト検出を保証し、次にインスタンスレベルの属性情報を取り込み、最後にオブジェクトクラスと属性感度のバランスをとる。
我々は,open-vocabulary attribute detection(ovad)ベンチマークとwild(vaw)データセットの視覚的属性を用いた属性分類と属性局在のモデル性能を評価し,ゼロショット性能を示す実験を行った。
アブレーション研究は、我々のアプローチの各トレーニングステップの有効性を実証する。
関連論文リスト
- Tree of Attributes Prompt Learning for Vision-Language Models [27.64685205305313]
本稿では,各カテゴリに「概念-属性-記述」構造を持つ属性のツリーを生成する属性学習(TAP)を提案する。
非構造化記述の集合で単にカテゴリ名を拡大する既存の方法とは異なり、本手法は基本的に構造化知識グラフを蒸留する。
提案手法では,テキストと視覚のプロンプトを導入し,対応する視覚属性を明示的に学習し,ドメインの専門家として効果的に機能する。
論文 参考訳(メタデータ) (2024-10-15T02:37:39Z) - Attribute Localization and Revision Network for Zero-Shot Learning [13.530912616208722]
ゼロショット学習により、モデルは属性などの補助的な意味情報の助けを借りて、目に見えないカテゴリを認識できる。
本稿では,局所的な特徴とグローバルな特徴の選択がゼロサムゲームではなく,グローバルな特徴が属性の理解に寄与することを発見した。
論文 参考訳(メタデータ) (2023-10-11T14:50:52Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Investigating the Role of Attribute Context in Vision-Language Models
for Object Recognition and Detection [33.77415850289717]
メソッドはオブジェクトクラス名がどの程度うまく学習されているかという点で評価されるが、キャプションには豊富な属性コンテキストも含まれている。
タスクが属性やオブジェクトの理解を必要とする場合、モデルが成功するかどうかだけでなく、学習においてこのコンテキストをどのように利用するかは明らかではない。
その結果, 属性コンテキストは, 検出のためのアライメントを学習する際には無駄になり, 属性の意味は埋め込みにおいて適切に考慮されず, 属性のみによるクラス記述は非効率であることが示唆された。
論文 参考訳(メタデータ) (2023-03-17T16:14:37Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Label2Label: A Language Modeling Framework for Multi-Attribute Learning [93.68058298766739]
Label2Labelは、言語モデリングの観点からのマルチ属性予測の最初の試みである。
NLPにおける事前学習言語モデルの成功に触発されたLabel2Labelは、イメージ条件付きマスキング言語モデルを導入した。
我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推測できる場合、インスタンスの属性関係がよく把握されるということである。
論文 参考訳(メタデータ) (2022-07-18T15:12:33Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。