論文の概要: OmDet: Language-Aware Object Detection with Large-scale Vision-Language
Multi-dataset Pre-training
- arxiv url: http://arxiv.org/abs/2209.05946v1
- Date: Sat, 10 Sep 2022 14:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:10:05.465620
- Title: OmDet: Language-Aware Object Detection with Large-scale Vision-Language
Multi-dataset Pre-training
- Title(参考訳): OmDet:大規模ビジョンランゲージマルチデータセット事前学習による言語対応オブジェクト検出
- Authors: Tiancheng Zhao, Peng Liu, Xiaopeng Lu and Kyusong Lee
- Abstract要約: この研究は、視覚言語による事前学習を通じて、検出器がゼロ/フェーショット能力を拡張できる連続的な学習手法を探求する。
自然言語を知識表現として使用し、異なるトレーニングデータセットから「視覚語彙」を蓄積する方法を探索する。
具体的には,新しい言語対応検出器OmDetと,新しい学習機構を提案する。
- 参考スコア(独自算出の注目度): 24.159128194616688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancing object detection to open-vocabulary and few-shot transfer has long
been a challenge for computer vision research. This work explores a continual
learning approach that enables a detector to expand its zero/few-shot
capabilities via multi-dataset vision-language pre-training. Using natural
language as knowledge representation, we explore methods to accumulate "visual
vocabulary" from different training datasets and unify the task as a
language-conditioned detection framework. Specifically, we propose a novel
language-aware detector OmDet and a novel training mechanism. The proposed
multimodal detection network can resolve the technical challenges in
multi-dataset joint training and it can generalize to arbitrary number of
training datasets without the requirements for manual label taxonomy merging.
Experiment results on COCO, Pascal VOC, and Wider Face/Pedestrian confirmed the
efficacy by achieving on par or higher scores in joint training compared to
training separately. Moreover, we pre-train on more than 20 million images with
4 million unique object vocabulary, and the resulting model is evaluated on 35
downstream tasks of ODinW. Results show that OmDet is able to achieve the
state-of-the-art fine-tuned performance on ODinW. And analysis shows that by
scaling up the proposed pre-training method, OmDet continues to improve its
zero/few-shot tuning performance, suggesting a promising way for further
scaling.
- Abstract(参考訳): オープンボキャブラリーと少数ショット転送への物体検出の進歩は、コンピュータビジョン研究にとって長年の課題だった。
本研究は,マルチデータセット視覚言語事前学習によるゼロ/フェーショット能力の拡張を可能にする,連続学習アプローチを探求する。
自然言語を知識表現として使用し,異なる学習データセットから「視覚語彙」を蓄積し,言語条件検出フレームワークとしてタスクを統一する手法を検討する。
具体的には,新しい言語対応検出器OmDetと学習機構を提案する。
提案するマルチモーダル検出ネットワークは,マルチデータセット合同トレーニングにおける技術的課題を解決し,手動ラベル分類統合を必要とせずに任意の数のトレーニングデータセットに一般化することができる。
COCO, Pascal VOC, Wider Face/Pedestrian を用いた実験の結果, 個別のトレーニングと比較すると, 同等以上のスコアを達成できることが確認された。
さらに,400万のユニークなオブジェクト語彙を持つ2000万以上の画像に対して事前学習を行い,ODinWの下流タスク35件について評価を行った。
その結果,OmDetはODinW上での最先端の微調整性能を実現することができた。
また,提案した事前学習手法をスケールアップすることにより,OmDetのゼロ/フェーショットチューニング性能が向上し続け,さらなるスケーリングを実現するための有望な方法が示唆されている。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。