論文の概要: HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2507.12883v1
- Date: Thu, 17 Jul 2025 08:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.398398
- Title: HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation
- Title(参考訳): HRSeg:高分解能視覚知覚と推論セグメンテーションの強化
- Authors: Weihuang Lin, Yiwei Ma, Xiaoshuai Sun, Shuting He, Jiayi Ji, Liujuan Cao, Rongrong Ji,
- Abstract要約: HRSegは高精細な知覚を持つ効率的なモデルである。
高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
- 参考スコア(独自算出の注目度): 74.1872891313184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning segmentation task involves segmenting objects within an image by interpreting implicit user instructions, which may encompass subtleties such as contextual cues and open-world knowledge. Despite significant advancements made by existing approaches, they remain constrained by low perceptual resolution, as visual encoders are typically pre-trained at lower resolutions. Furthermore, simply interpolating the positional embeddings of visual encoders to enhance perceptual resolution yields only marginal performance improvements while incurring substantial computational costs. To address this, we propose HRSeg, an efficient model with high-resolution fine-grained perception. It features two key innovations: High-Resolution Perception (HRP) and High-Resolution Enhancement (HRE). The HRP module processes high-resolution images through cropping, integrating local and global features for multi-granularity quality. The HRE module enhances mask features by integrating fine-grained information from high-resolution images, refining their alignment with text features for precise segmentation. Extensive ablation studies validate the effectiveness of our modules, while comprehensive experiments on multiple benchmark datasets demonstrate HRSeg's superior performance.
- Abstract(参考訳): 推論セグメンテーションタスクは、暗黙のユーザー命令を解釈することで、画像内のオブジェクトをセグメンテーションすることを含む。
既存のアプローチによる大幅な進歩にもかかわらず、視覚エンコーダは低い解像度で事前訓練されるため、低知覚解像度で制約される。
さらに、視覚エンコーダの位置埋め込みを単純に補間して知覚分解能を高めることで、計算コストを大幅に増大させながら、限界性能の改善しか得られない。
そこで本研究では,高分解能な粒度知覚モデルであるHRSegを提案する。
高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新が特徴である。
HRPモジュールは、トリミングを通じて高解像度の画像を処理し、局所的およびグローバルな機能を多粒質の品質のために統合する。
HREモジュールは、高解像度画像からのきめ細かい情報を統合し、正確なセグメンテーションのためにテキスト機能との整合性を改善することで、マスク機能を強化する。
複数のベンチマークデータセットに対する総合的な実験は、HRSegの優れた性能を示している。
関連論文リスト
- JAFAR: Jack up Any Feature at Any Resolution [53.343826346140624]
JAFARは、Foundation Visionsの軽量で柔軟な機能アップサンプラーである。
これは、どんなファンデーションビジョンから任意の目標解像度まで、視覚的特徴の空間分解能を高める。
非常に高い出力スケールに非常によく一般化する。
論文 参考訳(メタデータ) (2025-06-10T20:53:12Z) - Semantic-Guided Global-Local Collaborative Networks for Lightweight Image Super-Resolution [9.666827340439669]
単画像超解像(SISR)は測定システムの精度と信頼性を高める上で重要な役割を担っている。
軽量SISRのためのSGGLC-Net(Semantic-Guided Global-Local Collaborative Network)を提案する。
論文 参考訳(メタデータ) (2025-03-20T11:43:55Z) - HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation [12.606794661369959]
骨盤病変分割のための簡易高分解能デコーダネットワークHRDecoderを提案する。
高精細な局所的特徴を捉えるための高精細な表現学習モジュールと、マルチスケールの予測を融合する高精細な融合モジュールを統合している。
本手法は, 適正なメモリと計算オーバーヘッドを消費し, 推論速度の満足度を維持しながら, 足底部病変の全体的なセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-11-06T15:13:31Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - Wider and Higher: Intensive Integration and Global Foreground Perception
for Image Matting [44.51635913732913]
本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションと高いモチベーションについて考察する。
画像マッチングは基本的にピクセル単位での回帰であり、理想的な状況は入力画像から最大不透明度を知覚することである。
Intensive Integration and Global Foreground Perception Network (I2GFP) を提案する。
論文 参考訳(メタデータ) (2022-10-13T11:34:46Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。