論文の概要: DesCo: Learning Object Recognition with Rich Language Descriptions
- arxiv url: http://arxiv.org/abs/2306.14060v1
- Date: Sat, 24 Jun 2023 21:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:10:27.183753
- Title: DesCo: Learning Object Recognition with Rich Language Descriptions
- Title(参考訳): desco: リッチ言語記述によるオブジェクト認識の学習
- Authors: Liunian Harold Li, Zi-Yi Dou, Nanyun Peng, Kai-Wei Chang
- Abstract要約: 視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 93.8177229428617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent development in vision-language approaches has instigated a paradigm
shift in learning visual recognition models from language supervision. These
approaches align objects with language queries (e.g. "a photo of a cat") and
improve the models' adaptability to identify novel objects and domains.
Recently, several studies have attempted to query these models with complex
language expressions that include specifications of fine-grained semantic
details, such as attributes, shapes, textures, and relations. However, simply
incorporating language descriptions as queries does not guarantee accurate
interpretation by the models. In fact, our experiments show that GLIP, the
state-of-the-art vision-language model for object detection, often disregards
contextual information in the language descriptions and instead relies heavily
on detecting objects solely by their names. To tackle the challenges, we
propose a new description-conditioned (DesCo) paradigm of learning object
recognition models with rich language descriptions consisting of two major
innovations: 1) we employ a large language model as a commonsense knowledge
engine to generate rich language descriptions of objects based on object names
and the raw image-text caption; 2) we design context-sensitive queries to
improve the model's ability in deciphering intricate nuances embedded within
descriptions and enforce the model to focus on context rather than object names
alone. On two novel object detection benchmarks, LVIS and OminiLabel, under the
zero-shot detection setting, our approach achieves 34.8 APr minival (+9.1) and
29.3 AP (+3.6), respectively, surpassing the prior state-of-the-art models,
GLIP and FIBER, by a large margin.
- Abstract(参考訳): 近年の視覚言語アプローチの発展は、言語監督から視覚認識モデルを学ぶパラダイムシフトを引き起こしている。
これらのアプローチは、オブジェクトを言語クエリ(例えば「猫の写真」)にアライメントし、新しいオブジェクトとドメインを識別するためのモデルの適応性を改善する。
近年, 属性, 形状, テクスチャ, 関係性など, きめ細かいセマンティックディテールの仕様を含む複雑な言語表現を用いて, これらのモデルに問い合わせる試みがいくつかある。
しかし、単に言語記述をクエリとして組み込むことは、モデルによる正確な解釈を保証するものではない。
実際、我々の実験は、オブジェクト検出のための最先端のビジョン言語モデルであるGLIPが、言語記述の文脈情報を無視することが多く、その代わりに、名前だけでオブジェクトを検出することに大きく依存していることを示している。
課題に対処するために,2つの主要なイノベーションからなるリッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
1) オブジェクト名と原文キャプションに基づいてオブジェクトのリッチな言語記述を生成するために,大言語モデルを常識知識エンジンとして採用する。
2) 文脈に敏感なクエリを設計し、記述内に埋め込まれた複雑なニュアンスを解読し、オブジェクト名のみではなくコンテキストにフォーカスするようにモデルを強制する。
LVISとOminiLabelという2つの新しいオブジェクト検出ベンチマークでは、ゼロショット検出設定の下で、従来の最先端モデルであるGLIPとFIBERを大きく上回る34.8 APr minival(+9.1)と29.3 AP(+3.6)を達成した。
関連論文リスト
- Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags [28.368960723666458]
MLLM(Multimodal Large Language Models)は、視覚的命令に対して正確かつ詳細な応答を提供するために必要な場合、重要な問題に対処する。
これらの問題を緩和する効果を示すが、大量の新しいデータを収集するコストがかかる。
本稿では、リッチなオブジェクト認識情報を含む検索拡張タグトークンを用いて、マッピングを強化することを提案する。
論文 参考訳(メタデータ) (2024-06-16T08:20:12Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。