論文の概要: ZERO: Industry-ready Vision Foundation Model with Multi-modal Prompts
- arxiv url: http://arxiv.org/abs/2507.04270v3
- Date: Tue, 29 Jul 2025 07:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.273025
- Title: ZERO: Industry-ready Vision Foundation Model with Multi-modal Prompts
- Title(参考訳): ZERO:マルチモーダルプロンプトを用いた業界対応ビジョンファウンデーションモデル
- Authors: Sangbum Choi, Kyeongryeol Go, Taewoong Jang,
- Abstract要約: Superb AIは業界対応のビジョンファウンデーションモデルであるZEROを導入した。
ZEROは、プロプライエタリな10億規模の産業データセットからの0.9百万の注釈付きサンプルで訓練されている。
ZEROは、ドメイン固有のゼロショット産業アプリケーションのために明示的に構築された最初のビジョン基盤モデルである。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models have revolutionized AI, yet they struggle with zero-shot deployment in real-world industrial settings due to a lack of high-quality, domain-specific datasets. To bridge this gap, Superb AI introduces ZERO, an industry-ready vision foundation model that leverages multi-modal prompting (textual and visual) for generalization without retraining. Trained on a compact yet representative 0.9 million annotated samples from a proprietary billion-scale industrial dataset, ZERO demonstrates competitive performance on academic benchmarks like LVIS-Val and significantly outperforms existing models across 37 diverse industrial datasets. Furthermore, ZERO achieved 2nd place in the CVPR 2025 Object Instance Detection Challenge and 4th place in the Foundational Few-shot Object Detection Challenge, highlighting its practical deployability and generalizability with minimal adaptation and limited data. To the best of our knowledge, ZERO is the first vision foundation model explicitly built for domain-specific, zero-shot industrial applications.
- Abstract(参考訳): ファンデーションモデルはAIに革命をもたらしたが、高品質でドメイン固有のデータセットが欠如しているために、現実の産業環境でゼロショットのデプロイメントに苦労している。
このギャップを埋めるために、Superb AIは、業界対応のビジョン基盤モデルであるZEROを導入している。
プロプライエタリな10億規模の産業データセットから、0.9百万の注釈付きサンプルをコンパクトにトレーニングしたZEROは、LVIS-Valのような学術ベンチマークで競合性能を示し、37の産業データセットで既存のモデルを著しく上回っている。
さらに、ZEROはCVPR 2025 Object Instance Detection Challengeで2位、Foundational Few-shot Object Detection Challengeで4位を獲得し、最小限の適応と制限されたデータによる実用的デプロイ性と一般化性を強調した。
私たちの知る限りでは、ZEROはドメイン固有のゼロショット産業アプリケーションのために明示的に構築された最初のビジョン基盤モデルです。
関連論文リスト
- UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文 参考訳(メタデータ) (2025-04-16T09:21:34Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Efficient Adaptation For Remote Sensing Visual Grounding [0.46425518005471045]
事前訓練されたモデルへの適応は人工知能の効果的な戦略となり、スクラッチからモデルのトレーニングにスケーラブルで効率的な代替手段を提供する。
本研究は, リモートセンシングにおけるPEFT技術の高効率かつ高精度なマルチモーダル解析への応用について述べる。
論文 参考訳(メタデータ) (2025-03-29T13:49:11Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。