Fugu-MT 論文翻訳(概要): An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

論文の概要: An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

arxiv url: http://arxiv.org/abs/2401.02361v2
Date: Fri, 5 Jan 2024 06:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 17:16:54.847331
Title: An Open and Comprehensive Pipeline for Unified Object Grounding and Detection
Title（参考訳）: オブジェクトの統一接地と検出のためのオープンで包括的なパイプライン
Authors: Xiangyu Zhao, Yicheng Chen, Shilin Xu, Xiangtai Li, Xinjiang Wang, Yining Li, Haian Huang
Abstract要約: Grounding-DINOは最先端のオープンセット検出モデルである。 Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression (REC)など、複数の視覚タスクに取り組む。
参考スコア（独自算出の注目度）: 37.527218201680675
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grounding-DINO is a state-of-the-art open-set detection model that tackles multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness has led to its widespread adoption as a mainstream architecture for various downstream applications. However, despite its significance, the original Grounding-DINO model lacks comprehensive public technical details due to the unavailability of its training code. To bridge this gap, we present MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline, which is built with the MMDetection toolbox. It adopts abundant vision datasets for pre-training and various detection and grounding datasets for fine-tuning. We give a comprehensive analysis of each reported result and detailed settings for reproduction. The extensive experiments on the benchmarks mentioned demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny baseline. We release all our models to the research community. Codes and trained models are released at https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.
Abstract（参考訳）: Grounding-DINOは最先端のオープンセット検出モデルであり、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression Comprehension (REC)を含む複数の視覚タスクに取り組む。その効果は、ダウンストリームアプリケーションの主流アーキテクチャとして広く採用されている。しかし、その重要性にもかかわらず、当初のグラウンドング・ディノモデルは訓練法が適用できないため、包括的な技術詳細を欠いている。このギャップを埋めるため,オープンソースで包括的でユーザフレンドリなベースラインであるmm-grounding-dinoをmmdetectionツールボックスで構築した。事前学習のための豊富なビジョンデータセットと、微調整のための様々な検出および接地データセットを採用している。報告された各結果の包括的分析と再現のための詳細な設定を行う。上で述べたベンチマーク実験は、MM-Grounding-DINO-Tinyがグラウンディング-DINO-Tinyベースラインを上回っていることを示している。すべてのモデルを研究コミュニティにリリースします。コードとトレーニングされたモデルはhttps://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dinoでリリースされる。

関連論文リスト

From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文参考訳（メタデータ） (2025-12-22T18:58:12Z)
Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。 UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文参考訳（メタデータ） (2025-09-30T09:26:32Z)
Zero-Shot Image Anomaly Detection Using Generative Foundation Models [2.241618130319058]
本研究は,意味的異常検出のための基礎的ツールとしてスコアベース生成モデルの利用について検討する。スタインスコアの誤差を解析することにより,各ターゲットデータセットの再学習を必要とせず,異常サンプルを識別する新しい手法を提案する。このアプローチは最先端よりも改善され、ひとつのデータセット — CelebA -- 上で単一のモデルをトレーニングすることに依存しています。
論文参考訳（メタデータ） (2025-07-30T13:56:36Z)
TUM2TWIN: Introducing the Large-Scale Multimodal Urban Digital Twin Benchmark Dataset [90.97440987655084]
都市デジタルツインズ(UDT)は、都市管理と多様なソースからの複雑な異種データの統合に欠かせないものとなっている。これらの課題に対処するために、最初の総合的マルチモーダルなUrban Digital TwinベンチマークデータセットTUM2TWINを紹介する。このデータセットには、地理的にセマンティックに整合した3Dモデルとネットワーク、およびさまざまな地球、モバイル、航空、衛星観測結果、約10,000ドル以上のデータサブセット、そして現在767GBのデータが含まれている。
論文参考訳（メタデータ） (2025-05-12T09:48:32Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定値から計量深度値を求めるための,実践的なオンラインスケール回復手法であるTanDepthを提案する。本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
論文参考訳（メタデータ） (2024-09-08T15:54:43Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping [3.5047603107971397]
トレーニング可能な高密度バンドル調整(DBA)を因子グラフを通じて多センサ情報と密に統合する。視覚-慣性統合のためのパイプラインが最初に開発され、メカニカルスケールのローカライゼーションとマッピングの最小限の能力を提供する。その結果,大規模環境におけるリアルタイム高密度マッピングを実現する手法として,より優れたローカライゼーション性能が得られた。
論文参考訳（メタデータ） (2024-03-20T16:20:54Z)
Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。 ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文参考訳（メタデータ） (2023-12-12T18:28:59Z)
Unsupervised Domain Adaption for Neural Information Retrieval [18.97486314518283]
本稿では,Large Language Models やルールベースの文字列操作を用いたクエリ生成による合成アノテーションの比較を行う。大規模言語モデルは,すべてのシナリオにおいて,ルールベースの手法よりも大きなマージンで優れていることがわかった。さらに、オープンな大規模言語モデルを用いて、合成データを生成し、中規模モデルで十分であることを示す。
論文参考訳（メタデータ） (2023-10-13T18:27:33Z)
UDTIRI: An Online Open-Source Intelligent Road Inspection Benchmark Suite [21.565438268381467]
このベンチマークスイートで公開された最初のオンラインコンペである道路穴検出タスクを紹介します。我々のベンチマークは、最先端のオブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションネットワークの体系的かつ徹底的な評価を提供する。多様な道路条件をより包括的に理解したアルゴリズムを提供することで、未解決の可能性を解き明かそうとしている。
論文参考訳（メタデータ） (2023-04-18T09:13:52Z)
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection [76.5120397167247]
そこで我々は,Transformer-based detector DINO と接地事前学習を併用したオープンセット型物体検出器である Grounding DINO を提案する。オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。 DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
論文参考訳（メタデータ） (2023-03-09T18:52:16Z)
MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection [16.914663209964697]
我々は,Multi-Layer One-Class Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニングアプローチを提案する。異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークのピースワイズ的性質を明示的に活用します。本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2020-12-09T08:32:56Z)
Contextual-Bandit Anomaly Detection for IoT Data in Distributed Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2020-04-15T06:13:33Z)
Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文参考訳（メタデータ） (2020-02-20T03:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。