論文の概要: Region-based Cluster Discrimination for Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2507.20025v1
- Date: Sat, 26 Jul 2025 17:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.682645
- Title: Region-based Cluster Discrimination for Visual Representation Learning
- Title(参考訳): 視覚表現学習のための領域ベースクラスタ識別
- Authors: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng,
- Abstract要約: Region-Aware Cluster Discrimination (RICE)は、地域レベルの視覚とOCR機能を強化する新しい手法である。
RICEは、セグメンテーション、密集検知、視覚知覚など、タスクにおける従来の手法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 30.79223671093668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visual representations is foundational for a broad spectrum of downstream tasks. Although recent vision-language contrastive models, such as CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale vision-language alignment, their reliance on global representations constrains their effectiveness for dense prediction tasks, such as grounding, OCR, and segmentation. To address this gap, we introduce Region-Aware Cluster Discrimination (RICE), a novel method that enhances region-level visual and OCR capabilities. We first construct a billion-scale candidate region dataset and propose a Region Transformer layer to extract rich regional semantics. We further design a unified region cluster discrimination loss that jointly supports object and OCR learning within a single classification framework, enabling efficient and scalable distributed training on large-scale data. Extensive experiments show that RICE consistently outperforms previous methods on tasks, including segmentation, dense detection, and visual perception for Multimodal Large Language Models (MLLMs). The pre-trained models have been released at https://github.com/deepglint/MVT.
- Abstract(参考訳): ビジュアル表現の学習は、下流の幅広いタスクの基礎となる。
近年のCLIPやSigLIPなどの視覚言語コントラストモデルでは、大規模な視覚言語アライメントによるゼロショット性能が向上しているが、グローバル表現への依存は、グラウンド化、OCR、セグメンテーションといった密集した予測タスクに対する効果を制限している。
このギャップに対処するために、地域レベルの視覚とOCR機能を強化する新しい手法であるRegional-Aware Cluster Discrimination (RICE)を導入する。
まず、数十億の候補地域データセットを構築し、リッチな地域意味論を抽出するリージョントランスフォーマー層を提案する。
さらに、単一分類フレームワーク内でオブジェクトとOCR学習を協調的にサポートし、大規模データに対する効率的でスケーラブルな分散トレーニングを可能にする、統合されたリージョンクラスタ識別損失を設計する。
広範囲な実験により、RICEはマルチモーダル大言語モデル(MLLM)のセグメンテーション、密集度検出、視覚知覚など、タスクにおける従来の手法よりも一貫して優れていたことが示されている。
事前トレーニングされたモデルはhttps://github.com/deepglint/MVT.comでリリースされた。
関連論文リスト
- Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。
この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文 参考訳(メタデータ) (2025-06-30T13:14:46Z) - IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [4.247494613524502]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。
IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。
本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文 参考訳(メタデータ) (2025-04-14T01:51:29Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Region-Enhanced Feature Learning for Scene Semantic Segmentation [19.20735517821943]
計算負担を軽減するために,細粒度点やボクセルの代わりに点雲の中間表現として領域を用いることを提案する。
本研究では,セマンティック空間領域抽出段階と領域依存モデリング段階からなるRFEモジュールを設計する。
我々のREFL-NetはScanNetV2で1.8% mIoUゲイン、S3DISデータセットで1.7% mIoUゲインを無視可能な計算コストで達成している。
論文 参考訳(メタデータ) (2023-04-15T06:35:06Z) - Learning to Discover and Detect Objects [43.52208526783969]
新たなクラス発見・検出・ローカライゼーション(NCDL)の課題に取り組む。
この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。
検出ネットワークをエンドツーエンドでトレーニングすることにより、さまざまなクラスに対してすべてのリージョン提案を分類することが可能になる。
論文 参考訳(メタデータ) (2022-10-19T17:59:55Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Region-Aware Metric Learning for Open World Semantic Segmentation via
Meta-Channel Aggregation [19.584457251137252]
領域認識メトリックラーニング(RAML)という手法を提案する。
RAMLは画像の領域を分離し、さらなるメトリック学習のための領域認識機能を生成する。
提案したRAMLは,オープンワールドセグメンテーションの両段階においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-05-17T04:12:47Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。