論文の概要: ZERO: Multi-modal Prompt-based Visual Grounding
- arxiv url: http://arxiv.org/abs/2507.04270v1
- Date: Sun, 06 Jul 2025 07:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.097224
- Title: ZERO: Multi-modal Prompt-based Visual Grounding
- Title(参考訳): ZERO:マルチモーダルプロンプトベースのビジュアルグラウンド
- Authors: Sangbum Choi, Kyeongryeol Go,
- Abstract要約: ZEROはゼロショットのマルチプロンプトオブジェクト検出モデルであり,多種多様な産業領域にまたがるロバストで実運用対応の展開を念頭に設計されている。
ZEROは、直接画像入力を複数のユーザ定義プロンプトと統合し、テキストと視覚の両方のキューを格納し、専用のエンコーダを通じて処理して正確な検出出力を生成する。
モデルアーキテクチャは拡張性に最適化されており、合計1.033 TFLOPSと622.346万のパラメータを持ち、ドメイン固有の画像データベースを10億枚以上使用して訓練されている。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in artificial intelligence have led to the emergence of foundation models, large-scale pre-trained neural networks that serve as versatile starting points for a wide range of downstream tasks. In this work, we present ZERO, a zero-shot multi-prompt object detection model specifically designed for robust, production-ready deployment across diverse industrial domains. ZERO integrates direct image input with multiple user-defined prompts, which can include both textual and visual cues, and processes them through dedicated encoders to generate accurate detection outputs. The model architecture is optimized for scalability, with a total of 1.033 TFLOPS and 622.346 million parameters, and is trained using a domain-specific image database exceeding one billion images. For the CVPR 2025 Foundational Few-Shot Object Detection (FSOD) Challenge, we introduce a domain-specific fine-tuning strategy that emphasizes prompt diversity and conservative pseudo-labeling, enabling effective adaptation to new domains with minimal supervision. Our approach demonstrates practical advantages in flexibility, efficiency, and real-world applicability, achieving strong performance on the RF20VL-fsod benchmark despite limited annotation budgets. The results highlight the potential of prompt-driven, data-centric AI for scalable and adaptive object detection in dynamic industrial environments.
- Abstract(参考訳): 人工知能の最近の進歩は、幅広い下流タスクの汎用的な出発点として機能する大規模な事前訓練ニューラルネットワークである基礎モデルの出現につながっている。
本研究では, 多様な産業領域にまたがるロバストで実運用対応の配置に特化して設計されたゼロショットマルチプロンプトオブジェクト検出モデルであるZEROを提案する。
ZEROは、直接画像入力を複数のユーザ定義プロンプトと統合し、テキストと視覚の両方のキューを格納し、専用のエンコーダを通じて処理して正確な検出出力を生成する。
モデルアーキテクチャは拡張性に最適化されており、合計1.033 TFLOPSと622.346万のパラメータを持ち、ドメイン固有の画像データベースを10億枚以上使用して訓練されている。
CVPR 2025 Foundational Few-Shot Object Detection (FSOD) Challengeでは,早期の多様性と保守的な擬似ラベルを強調するドメイン固有の微調整戦略を導入し,最小限の監視で新しいドメインへの効果的な適応を可能にする。
RF20VL-fsodベンチマークでは,アノテーションの予算が限られているにも関わらず,高い性能を実現している。
結果は、動的産業環境におけるスケーラブルで適応的なオブジェクト検出のための、プロンプト駆動の、データ中心のAIの可能性を強調している。
関連論文リスト
- UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文 参考訳(メタデータ) (2025-04-16T09:21:34Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Efficient Adaptation For Remote Sensing Visual Grounding [0.46425518005471045]
事前訓練されたモデルへの適応は人工知能の効果的な戦略となり、スクラッチからモデルのトレーニングにスケーラブルで効率的な代替手段を提供する。
本研究は, リモートセンシングにおけるPEFT技術の高効率かつ高精度なマルチモーダル解析への応用について述べる。
論文 参考訳(メタデータ) (2025-03-29T13:49:11Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。