論文の概要: OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.15096v1
- Date: Thu, 18 Sep 2025 15:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.314888
- Title: OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation
- Title(参考訳): OmniSegmentor: セマンティックセグメンテーションのための柔軟なマルチモーダル学習フレームワーク
- Authors: Bo-Wen Yin, Jiao-Long Cao, Xuying Zhang, Yuming Chen, Ming-Ming Cheng, Qibin Hou,
- Abstract要約: 我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。
ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。
様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
- 参考スコア(独自算出の注目度): 74.55725909072903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on representation learning has proved the merits of multi-modal clues for robust semantic segmentation. Nevertheless, a flexible pretrain-and-finetune pipeline for multiple visual modalities remains unexplored. In this paper, we propose a novel multi-modal learning framework, termed OmniSegmentor. It has two key innovations: 1) Based on ImageNet, we assemble a large-scale dataset for multi-modal pretraining, called ImageNeXt, which contains five popular visual modalities. 2) We provide an efficient pretraining manner to endow the model with the capacity to encode different modality information in the ImageNeXt. For the first time, we introduce a universal multi-modal pretraining framework that consistently amplifies the model's perceptual capabilities across various scenarios, regardless of the arbitrary combination of the involved modalities. Remarkably, our OmniSegmentor achieves new state-of-the-art records on a wide range of multi-modal semantic segmentation datasets, including NYU Depthv2, EventScape, MFNet, DeLiVER, SUNRGBD, and KITTI-360.
- Abstract(参考訳): 表現学習に関する最近の研究は、ロバストなセマンティックセグメンテーションのためのマルチモーダルな手がかりの利点を証明している。
それでも、複数の視覚的モダリティのためのフレキシブルなプレトレイン・アンド・ファネチューンパイプラインは、まだ探索されていない。
本稿では,OmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。
主なイノベーションは2つある。
1) ImageNetをベースとして,ImageNeXtと呼ばれる5つの人気のある視覚的モダリティを含むマルチモーダル事前学習のための大規模データセットを組み立てる。
2)ImageNeXtでは,モデルに異なるモダリティ情報をエンコードする能力を持たせるために,効率的な事前学習方法を提案する。
モデルが様々なシナリオにまたがる知覚能力を、関係するモダリティの任意の組み合わせによらず一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを初めて導入する。
注目すべきなのは、OmniSegmentorは、NYU Depthv2、EventScape、MFNet、DeLiVER、SUNRGBD、KITTI-360など、幅広いマルチモーダルセマンティックセマンティックセマンティックセマンティクスデータセット上で、新たな最先端レコードを実現していることです。
関連論文リスト
- FusionSAM: Visual Multi-Modal Learning with Segment Anything [37.61598617788102]
本稿では,Segment Anything Model (SAM) をマルチモーダル画像セグメンテーションに導入する。
本稿では,LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
本手法は,マルチモーダル自動運転シナリオにおいてSAMとSAM2を著しく上回っている。
論文 参考訳(メタデータ) (2024-08-26T02:20:55Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。