論文の概要: Enhancing the Role of Context in Region-Word Alignment for Object
Detection
- arxiv url: http://arxiv.org/abs/2303.10093v1
- Date: Fri, 17 Mar 2023 16:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:00:35.260095
- Title: Enhancing the Role of Context in Region-Word Alignment for Object
Detection
- Title(参考訳): 物体検出のための領域単語アライメントにおける文脈の役割強化
- Authors: Kyle Buettner, Adriana Kovashka
- Abstract要約: 我々は、アライメントを改善するために、基礎となる事前学習目標を戦略的に文脈化する方法を示す。
対照的な学習に焦点をあてる新しい形容詞と名詞に基づくネガティブサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 37.06088084592779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pretraining to learn a fine-grained, region-word alignment
between image-caption pairs has propelled progress in open-vocabulary object
detection. We observe that region-word alignment methods are typically used in
detection with respect to only object nouns, and the impact of other rich
context in captions, such as attributes, is unclear. In this study, we explore
how language context affects downstream object detection and propose to enhance
the role of context. In particular, we show how to strategically contextualize
the grounding pretraining objective for improved alignment. We further hone in
on attributes as especially useful object context and propose a novel adjective
and noun-based negative sampling strategy for increasing their focus in
contrastive learning. Overall, our methods enhance object detection when
compared to the state-of-the-art in region-word pretraining. We also highlight
the fine-grained utility of an attribute-sensitive model through text-region
retrieval and phrase grounding analysis.
- Abstract(参考訳): イメージキャプションペア間のきめ細かな領域単語アライメントを学習するための視覚言語事前学習は、オープン語彙オブジェクト検出の進歩を促している。
対象名詞のみに対する検出には領域単語アライメント法が一般的に用いられており,属性などのキャプションにおける他のリッチコンテキストの影響は不明確である。
本研究では,言語コンテキストが下流オブジェクトの検出に与える影響について検討し,文脈の役割を高めることを提案する。
特に,アライメント改善のためのグラウンドトレーニング目標を戦略的にコンテキスト化する方法を示す。
我々はさらに,特に有用なオブジェクトコンテキストとしての属性に着目し,新しい形容詞と名詞に基づく否定的サンプリング戦略を提案する。
全体として,本手法は,地域単語事前学習における最先端技術と比較してオブジェクト検出を向上する。
また,テキスト領域検索と句接頭辞解析による属性感性モデルの有用性を強調した。
関連論文リスト
- ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。
画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。
生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文 参考訳(メタデータ) (2024-08-07T21:44:29Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - LOWA: Localize Objects in the Wild with Attributes [8.922263691331912]
本稿では,自然界における属性を持つ物体の局所化手法であるLOWAについて述べる。
これは、インスタンスレベルの属性分類の欠如と希少なクラス名によって制限されている、現在のオープン語彙オブジェクト検出器の不足に対処することを目的としている。
論文 参考訳(メタデータ) (2023-05-31T17:21:24Z) - Open-vocabulary Attribute Detection [38.5017012867974]
本稿では,Open-Vocabulary Attribute DetectionタスクとOVADベンチマークを紹介する。
新たなタスクとベンチマークの目的は、視覚言語モデルによって学習されたオブジェクトレベルの属性情報を探索することである。
全体として、ベンチマークは14万のアノテーションで構成されている。
論文 参考訳(メタデータ) (2022-11-23T12:34:43Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。