論文の概要: TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2506.21975v1
- Date: Fri, 27 Jun 2025 07:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.120064
- Title: TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models
- Title(参考訳): TASeg:微調整視覚基礎モデルに基づくテキスト認識RGB-Tセマンティックセグメンテーション
- Authors: Meng Yu, Te Cui, Qitong Chu, Wenjie Song, Yi Yang, Yufeng Yue,
- Abstract要約: 本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。
具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
- 参考スコア(独自算出の注目度): 26.983562312613877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable semantic segmentation of open environments is essential for intelligent systems, yet significant problems remain: 1) Existing RGB-T semantic segmentation models mainly rely on low-level visual features and lack high-level textual information, which struggle with accurate segmentation when categories share similar visual characteristics. 2) While SAM excels in instance-level segmentation, integrating it with thermal images and text is hindered by modality heterogeneity and computational inefficiency. To address these, we propose TASeg, a text-aware RGB-T segmentation framework by using Low-Rank Adaptation (LoRA) fine-tuning technology to adapt vision foundation models. Specifically, we propose a Dynamic Feature Fusion Module (DFFM) in the image encoder, which effectively merges features from multiple visual modalities while freezing SAM's original transformer blocks. Additionally, we incorporate CLIP-generated text embeddings in the mask decoder to enable semantic alignment, which further rectifies the classification error and improves the semantic understanding accuracy. Experimental results across diverse datasets demonstrate that our method achieves superior performance in challenging scenarios with fewer trainable parameters.
- Abstract(参考訳): オープン環境の信頼性のあるセマンティックセグメンテーションはインテリジェントシステムには不可欠だが、重要な問題は残る。
1) 既存のRGB-Tセマンティックセマンティックセマンティクスモデルは主に低レベル視覚特徴に依存しており, カテゴリが類似した視覚特徴を共有する場合に, 正確なセマンティクス化に苦慮する高レベルテキスト情報を欠いている。
2)SAMはインスタンスレベルのセグメンテーションに優れるが,熱画像とテキストの統合は,モダリティの不均一性と計算不効率によって妨げられる。
そこで本研究では,ローランド適応(LoRA)ファインチューニング技術を用いて,テキスト対応のRGB-TセグメンテーションフレームワークであるTASegを提案する。
具体的には,画像エンコーダの動的特徴融合モジュール (DFFM) を提案する。
さらに、マスクデコーダにCLIP生成テキスト埋め込みを組み込んでセマンティックアライメントを実現し、さらに分類エラーを修正し、セマンティック理解の精度を向上させる。
多様なデータセットを対象とした実験結果から,本手法は訓練可能なパラメータが少ない難易度シナリオにおいて,優れた性能を発揮することが示された。
関連論文リスト
- Multimodal Conditional Information Bottleneck for Generalizable AI-Generated Image Detection [24.512663807403186]
InfoFDはテキスト誘導型AI生成画像検出フレームワークである。
TGCIB(Text-Guided Conditional Information Bottleneck)とDTO(Dynamic Text Orthogonalization)の2つの重要なコンポーネントを紹介する。
我々のモデルは、GenImageデータセットと最新の生成モデル上で、例外的な一般化性能を達成する。
論文 参考訳(メタデータ) (2025-05-21T07:46:26Z) - BIMII-Net: Brain-Inspired Multi-Iterative Interactive Network for RGB-T Road Scene Semantic Segmentation [6.223341988991549]
我々は、BIMII-Net(Brain-Inspired Multi-Iteration Interaction Network)と呼ばれる新しいRGB-Tロードシーンセマンティックセマンティックネットワークを提案する。
まず、自律運転のような道路シナリオにおける正確なテクスチャと局所情報抽出の要件を満たすため、脳にインスパイアされたモデルに基づく深部連続結合ニューラルネットワーク(DCCNN)アーキテクチャを提案する。
第2に,BIMII-Netの機能融合段階において,多モード情報間の相互作用と表現能力を高めるために,クロス明示的な注意強調融合モジュール (CEAEF-Module) を設計した。
最後に,相補的対話型多層復号器を構築した。
論文 参考訳(メタデータ) (2025-03-25T03:09:46Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications [0.7951977175758216]
従来のRGB-D処理パイプラインは主に幾何学的再構成に焦点を当てている。
セマンティックセグメンテーション、ヒューマントラッキング、ポイントクラウド融合、シーン再構築を統合した、新しいエンドツーエンドのモジュールパイプラインを導入する。
我々は、ベンチマークデータセットと現実世界のKinect RGB-Dデータにアプローチを検証し、効率、精度、ユーザビリティを改善した。
論文 参考訳(メタデータ) (2024-10-23T16:01:31Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。