論文の概要: ZERO: Multi-modal Prompt-based Visual Grounding
- arxiv url: http://arxiv.org/abs/2507.04270v1
- Date: Sun, 06 Jul 2025 07:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.097224
- Title: ZERO: Multi-modal Prompt-based Visual Grounding
- Title(参考訳): ZERO:マルチモーダルプロンプトベースのビジュアルグラウンド
- Authors: Sangbum Choi, Kyeongryeol Go,
- Abstract要約: ZEROはゼロショットのマルチプロンプトオブジェクト検出モデルであり,多種多様な産業領域にまたがるロバストで実運用対応の展開を念頭に設計されている。
ZEROは、直接画像入力を複数のユーザ定義プロンプトと統合し、テキストと視覚の両方のキューを格納し、専用のエンコーダを通じて処理して正確な検出出力を生成する。
モデルアーキテクチャは拡張性に最適化されており、合計1.033 TFLOPSと622.346万のパラメータを持ち、ドメイン固有の画像データベースを10億枚以上使用して訓練されている。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in artificial intelligence have led to the emergence of foundation models, large-scale pre-trained neural networks that serve as versatile starting points for a wide range of downstream tasks. In this work, we present ZERO, a zero-shot multi-prompt object detection model specifically designed for robust, production-ready deployment across diverse industrial domains. ZERO integrates direct image input with multiple user-defined prompts, which can include both textual and visual cues, and processes them through dedicated encoders to generate accurate detection outputs. The model architecture is optimized for scalability, with a total of 1.033 TFLOPS and 622.346 million parameters, and is trained using a domain-specific image database exceeding one billion images. For the CVPR 2025 Foundational Few-Shot Object Detection (FSOD) Challenge, we introduce a domain-specific fine-tuning strategy that emphasizes prompt diversity and conservative pseudo-labeling, enabling effective adaptation to new domains with minimal supervision. Our approach demonstrates practical advantages in flexibility, efficiency, and real-world applicability, achieving strong performance on the RF20VL-fsod benchmark despite limited annotation budgets. The results highlight the potential of prompt-driven, data-centric AI for scalable and adaptive object detection in dynamic industrial environments.
- Abstract(参考訳): 人工知能の最近の進歩は、幅広い下流タスクの汎用的な出発点として機能する大規模な事前訓練ニューラルネットワークである基礎モデルの出現につながっている。
本研究では, 多様な産業領域にまたがるロバストで実運用対応の配置に特化して設計されたゼロショットマルチプロンプトオブジェクト検出モデルであるZEROを提案する。
ZEROは、直接画像入力を複数のユーザ定義プロンプトと統合し、テキストと視覚の両方のキューを格納し、専用のエンコーダを通じて処理して正確な検出出力を生成する。
モデルアーキテクチャは拡張性に最適化されており、合計1.033 TFLOPSと622.346万のパラメータを持ち、ドメイン固有の画像データベースを10億枚以上使用して訓練されている。
CVPR 2025 Foundational Few-Shot Object Detection (FSOD) Challengeでは,早期の多様性と保守的な擬似ラベルを強調するドメイン固有の微調整戦略を導入し,最小限の監視で新しいドメインへの効果的な適応を可能にする。
RF20VL-fsodベンチマークでは,アノテーションの予算が限られているにも関わらず,高い性能を実現している。
結果は、動的産業環境におけるスケーラブルで適応的なオブジェクト検出のための、プロンプト駆動の、データ中心のAIの可能性を強調している。
関連論文リスト
- UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models [59.7084864920244]
InternSpatialは視覚言語モデル(VLM)における空間推論のための最大のオープンソースデータセットである
InternSpatialは、シングルビューとマルチビューの両方にまたがる1200万のQAペアで構成されている。
InternSpatial-Benchは、多様な命令形式で空間的理解を評価するために設計された評価ベンチマークである。
論文 参考訳(メタデータ) (2025-06-23T08:17:22Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文 参考訳(メタデータ) (2025-04-16T09:21:34Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Efficient Adaptation For Remote Sensing Visual Grounding [0.46425518005471045]
事前訓練されたモデルへの適応は人工知能の効果的な戦略となり、スクラッチからモデルのトレーニングにスケーラブルで効率的な代替手段を提供する。
本研究は, リモートセンシングにおけるPEFT技術の高効率かつ高精度なマルチモーダル解析への応用について述べる。
論文 参考訳(メタデータ) (2025-03-29T13:49:11Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Zero-Shot Anomaly Detection with Pre-trained Segmentation Models [2.9322869014189985]
本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのゼロショットトラックについて概説する。
WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。
パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。
論文 参考訳(メタデータ) (2023-06-15T16:43:07Z) - Zero-shot Video Moment Retrieval With Off-the-Shelf Models [17.254884920876695]
そのようなタスクであるビデオモーメント検索(VMR)に対してゼロショット単純アプローチを提案する。
これまでのゼロショットアプローチでは,すべてのメトリクスにおいて,少なくとも2.5倍の性能向上を実現しています。
また、我々のゼロショットアプローチは、Recallメトリクスの非事前制限された教師付きモデルに勝り、mAPメトリクスに非常に近いことを示しています。
論文 参考訳(メタデータ) (2022-11-03T23:11:04Z) - INTERN: A New Learning Paradigm Towards General Vision [117.3343347061931]
我々はInterNという新しい学習パラダイムを開発した。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文 参考訳(メタデータ) (2021-11-16T18:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。