論文の概要: A Cascaded Information Interaction Network for Precise Image Segmentation
- arxiv url: http://arxiv.org/abs/2601.00562v1
- Date: Fri, 02 Jan 2026 04:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.517788
- Title: A Cascaded Information Interaction Network for Precise Image Segmentation
- Title(参考訳): 高精度画像分割のためのカスケード情報対話ネットワーク
- Authors: Hewen Xiao, Jie Mei, Guangfu Ma, Weiren Wu,
- Abstract要約: 本稿では,新たなGlobal Information Guidance Moduleを統合した,カスケード型畳み込みニューラルネットワークを提案する。
このモジュールは、複数の層にまたがる高レベルのセマンティック機能で、低レベルのテクスチャの詳細を効果的に融合するように設計されている。
このアーキテクチャの革新は、特に視覚的に散らかったり、ぼやけた環境において、セグメンテーションの精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 3.911594181651384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual perception plays a pivotal role in enabling autonomous behavior, offering a cost-effective and efficient alternative to complex multi-sensor systems. However, robust segmentation remains a challenge in complex scenarios. To address this, this paper proposes a cascaded convolutional neural network integrated with a novel Global Information Guidance Module. This module is designed to effectively fuse low-level texture details with high-level semantic features across multiple layers, thereby overcoming the inherent limitations of single-scale feature extraction. This architectural innovation significantly enhances segmentation accuracy, particularly in visually cluttered or blurred environments where traditional methods often fail. Experimental evaluations on benchmark image segmentation datasets demonstrate that the proposed framework achieves superior precision, outperforming existing state-of-the-art methods. The results highlight the effectiveness of the approach and its promising potential for deployment in practical robotic applications.
- Abstract(参考訳): 視覚知覚は自律的な行動を可能にする上で重要な役割を担い、複雑なマルチセンサーシステムに対する費用対効果と効率的な代替手段を提供する。
しかし、ロバストなセグメンテーションは複雑なシナリオでは依然として課題である。
そこで本研究では,新たなGlobal Information Guidance Moduleを統合した,カスケード型畳み込みニューラルネットワークを提案する。
このモジュールは、複数の層にまたがる高レベルのセマンティックな特徴と、低レベルのテクスチャの詳細を効果的に融合させるように設計されている。
このアーキテクチャの革新はセグメンテーションの精度を大幅に向上させ、特に従来の手法がしばしば失敗する視覚的に散らかったり、ぼやけた環境においてである。
ベンチマーク画像セグメンテーションデータセットの実験的評価により,提案手法が既存の最先端手法よりも優れた精度を達成できることが示されている。
その結果,本手法の有効性と実用ロボットアプリケーションへの展開の可能性を強調した。
関連論文リスト
- RS-ISRefiner: Towards Better Adapting Vision Foundation Models for Interactive Segmentation of Remote Sensing Images [17.648922817109224]
RS-ISRefinerは、リモートセンシング画像に適したクリックベースのIISフレームワークである。
セグメンテーション精度、効率、相互作用コストの点で、最先端IIS法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-30T04:12:43Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Brain Inspired Adaptive Memory Dual-Net for Few-Shot Image Classification [10.824399627455326]
既存の手法は、関連するローカル機能の位置と整合性によってこの問題に対処することを目的としている。
実世界の画像における高いクラス内変動は、いくつかのショット設定下で意味論的に関連する局所領域を特定する上で大きな課題を生じさせる。
一般化最適化システム統合適応メモリデュアルネットワークSCAM-Netを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:42:51Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Learning to Generate Training Datasets for Robust Semantic Segmentation [37.9308918593436]
セマンティックセグメンテーション手法の堅牢性を改善するための新しい手法を提案する。
我々は,現実的で可視な摂動画像を生成するために,新しい条件付き生成対向ネットワークであるRobustaを設計した。
我々の結果は、このアプローチが安全クリティカルなアプリケーションに有用である可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-01T10:02:26Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。