論文の概要: OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion
- arxiv url: http://arxiv.org/abs/2407.07844v1
- Date: Wed, 10 Jul 2024 17:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:43:17.761962
- Title: OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion
- Title(参考訳): OV-DINO:Language-Aware Selective Fusionによるオープンボキャブラリ検出
- Authors: Hao Wang, Pengzhen Ren, Zequn Jie, Xiao Dong, Chengjian Feng, Yinlong Qian, Lin Ma, Dongmei Jiang, Yaowei Wang, Xiangyuan Lan, Xiaodan Liang,
- Abstract要約: 我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
統一されたフレームワークで言語対応の選択的融合を伴う、さまざまな大規模データセットを事前トレーニングする。
我々は,提案するOV-DINOの性能を,人気のあるオープン語彙検出ベンチマークデータセットで評価した。
- 参考スコア(独自算出の注目度): 88.59397418187226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary detection is a challenging task due to the requirement of detecting objects based on class names, including those not encountered during training. Existing methods have shown strong zero-shot detection capabilities through pre-training on diverse large-scale datasets. However, these approaches still face two primary challenges: (i) how to universally integrate diverse data sources for end-to-end training, and (ii) how to effectively leverage the language-aware capability for region-level cross-modality understanding. To address these challenges, we propose a novel unified open-vocabulary detection method called OV-DINO, which pre-trains on diverse large-scale datasets with language-aware selective fusion in a unified framework. Specifically, we introduce a Unified Data Integration (UniDI) pipeline to enable end-to-end training and eliminate noise from pseudo-label generation by unifying different data sources into detection-centric data. In addition, we propose a Language-Aware Selective Fusion (LASF) module to enable the language-aware ability of the model through a language-aware query selection and fusion process. We evaluate the performance of the proposed OV-DINO on popular open-vocabulary detection benchmark datasets, achieving state-of-the-art results with an AP of 50.6\% on the COCO dataset and 40.0\% on the LVIS dataset in a zero-shot manner, demonstrating its strong generalization ability. Furthermore, the fine-tuned OV-DINO on COCO achieves 58.4\% AP, outperforming many existing methods with the same backbone. The code for OV-DINO will be available at \href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO}.
- Abstract(参考訳): オープン語彙検出は、トレーニング中に遭遇しないものを含むクラス名に基づいてオブジェクトを検出する必要があるため、困難なタスクである。
既存の手法では、さまざまな大規模データセットの事前トレーニングを通じて、強力なゼロショット検出機能を示している。
しかし、これらのアプローチは依然として2つの大きな課題に直面している。
一 エンド・ツー・エンド・トレーニングのための多様なデータ・ソースを普遍的に統合する方法、及び
(II) 言語認識能力を活用して地域レベルの相互モダリティ理解を効果的に活用する方法。
これらの課題に対処するため、我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
具体的には、異なるデータソースを検出中心のデータに統一することにより、エンドツーエンドのトレーニングを可能にし、擬似ラベル生成からノイズを除去するUnified Data Integration(UniDI)パイプラインを導入する。
さらに,Language-Aware Selective Fusion (LASF)モジュールを提案する。
提案したOV-DINOを一般のオープン語彙検出ベンチマークデータセットで評価し,COCOデータセットで50.6\%,LVISデータセットで40.0\%をゼロショットで達成し,その強力な一般化能力を示した。
さらに、COCO上の細調整されたOV-DINOは58.4 % APを達成し、多くの既存の手法を同じバックボーンで上回っている。
OV-DINOのコードは \href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO} で入手できる。
関連論文リスト
- Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。
言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。
我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文 参考訳(メタデータ) (2023-12-18T06:40:24Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - Semi-Supervised Cross-Modal Salient Object Detection with U-Structure
Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。
本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。
ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文 参考訳(メタデータ) (2022-08-08T18:39:37Z) - Transducer-based language embedding for spoken language identification [38.60303603000269]
音響的特徴と言語的特徴は,音声言語識別作業において重要な手がかりである。
近年の先進的なLIDシステムは、言語的特徴符号化を欠いた音響的特徴を主に用いている。
本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T07:23:43Z) - GOLD: Improving Out-of-Scope Detection in Dialogues using Data
Augmentation [41.04593978694591]
金のテクニックは、既存のデータを拡張して、低データ状態で動作するより良いOOS検出器を訓練する。
3つのベンチマークを対象とした実験では、上位のGOLDモデルは、すべての主要なメトリクスで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-09-07T13:35:03Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。