Fugu-MT 論文翻訳(概要): OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion

論文の概要: OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion

arxiv url: http://arxiv.org/abs/2407.07844v2
Date: Mon, 22 Jul 2024 03:26:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 00:31:58.259704
Title: OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion
Title（参考訳）: OV-DINO:Language-Aware Selective Fusionによるオープンボキャブラリ検出
Authors: Hao Wang, Pengzhen Ren, Zequn Jie, Xiao Dong, Chengjian Feng, Yinlong Qian, Lin Ma, Dongmei Jiang, Yaowei Wang, Xiangyuan Lan, Xiaodan Liang,
Abstract要約: 我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
参考スコア（独自算出の注目度）: 88.59397418187226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-vocabulary detection is a challenging task due to the requirement of detecting objects based on class names, including those not encountered during training. Existing methods have shown strong zero-shot detection capabilities through pre-training and pseudo-labeling on diverse large-scale datasets. However, these approaches encounter two main challenges: (i) how to effectively eliminate data noise from pseudo-labeling, and (ii) how to efficiently leverage the language-aware capability for region-level cross-modality fusion and alignment. To address these challenges, we propose a novel unified open-vocabulary detection method called OV-DINO, which is pre-trained on diverse large-scale datasets with language-aware selective fusion in a unified framework. Specifically, we introduce a Unified Data Integration (UniDI) pipeline to enable end-to-end training and eliminate noise from pseudo-label generation by unifying different data sources into detection-centric data format. In addition, we propose a Language-Aware Selective Fusion (LASF) module to enhance the cross-modality alignment through a language-aware query selection and fusion process. We evaluate the performance of the proposed OV-DINO on popular open-vocabulary detection benchmarks, achieving state-of-the-art results with an AP of 50.6% on the COCO benchmark and 40.1% on the LVIS benchmark in a zero-shot manner, demonstrating its strong generalization ability. Furthermore, the fine-tuned OV-DINO on COCO achieves 58.4% AP, outperforming many existing methods with the same backbone. The code for OV-DINO is available at https://github.com/wanghao9610/OV-DINO.
Abstract（参考訳）: オープン語彙検出は、トレーニング中に遭遇しないものを含むクラス名に基づいてオブジェクトを検出する必要があるため、困難なタスクである。既存の手法では、様々な大規模データセット上で事前トレーニングと擬似ラベルをすることで、強力なゼロショット検出能力を示している。しかしながら、これらのアプローチは2つの大きな課題に直面します。一擬似ラベルからデータノイズを効果的に除去する方法、及び (II)地域レベルの相互モダリティ融合とアライメントに言語認識能力を効果的に活用する方法。これらの課題に対処するため、我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。具体的には、異なるデータソースを検出中心のデータフォーマットに統合することにより、エンドツーエンドのトレーニングを可能にし、擬似ラベル生成からノイズを除去するUnified Data Integration(UniDI)パイプラインを導入する。さらに,Language-Aware Selective Fusion (LASF)モジュールを提案する。我々は,提案するOV-DINOを一般のオープン語彙検出ベンチマークで評価し,COCOベンチマークで50.6%,LVISベンチマークで40.1%をゼロショットで達成し,その強力な一般化能力を示した。さらに、COCO上の細調整されたOV-DINOは58.4%APを達成し、多くの既存の手法を同じバックボーンで上回っている。 OV-DINOのコードはhttps://github.com/wanghao9610/OV-DINOで公開されている。

関連論文リスト

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。 2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T19:01:31Z)
Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2024-11-20T02:57:35Z)
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文参考訳（メタデータ） (2024-09-23T07:55:35Z)
Generative linguistic representation for spoken language identification [17.9575874225144]
本稿では,Whisperモデルからデコーダベースのネットワークを利用して言語的特徴を抽出する方法について検討する。言語埋め込み法とLID出力の直接最適化に焦点を当てた2つの戦略を考案した。我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットを用いて,我々のアプローチをテストする実験を行った。
論文参考訳（メタデータ） (2023-12-18T06:40:24Z)
ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文参考訳（メタデータ） (2022-11-17T07:57:54Z)
Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-28T16:25:08Z)
Semi-Supervised Cross-Modal Salient Object Detection with U-Structure Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文参考訳（メタデータ） (2022-08-08T18:39:37Z)
Transducer-based language embedding for spoken language identification [38.60303603000269]
音響的特徴と言語的特徴は,音声言語識別作業において重要な手がかりである。近年の先進的なLIDシステムは、言語的特徴符号化を欠いた音響的特徴を主に用いている。本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。
論文参考訳（メタデータ） (2022-04-08T07:23:43Z)
GOLD: Improving Out-of-Scope Detection in Dialogues using Data Augmentation [41.04593978694591]
金のテクニックは、既存のデータを拡張して、低データ状態で動作するより良いOOS検出器を訓練する。 3つのベンチマークを対象とした実験では、上位のGOLDモデルは、すべての主要なメトリクスで既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2021-09-07T13:35:03Z)
AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-04T07:17:18Z)
Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。深部自己注意を伴う識別的近傍分類を提示する。自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文参考訳（メタデータ） (2020-10-25T00:39:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。