論文の概要: ATV-Net: Adaptive Triple-View Network with Dynamic Feature Fusion
- arxiv url: http://arxiv.org/abs/2605.25803v1
- Date: Mon, 25 May 2026 12:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.052924
- Title: ATV-Net: Adaptive Triple-View Network with Dynamic Feature Fusion
- Title(参考訳): ATV-Net:動的特徴融合による適応型トリプルビューネットワーク
- Authors: Hsin-Jui Pan, Sheng-Wei Chan, Meng-Qian Li, Chun-Po Shen,
- Abstract要約: 本稿では,ResNet-101のバックボーンを強化する適応型トリプルビューネットワークであるATV-Netを提案する。
Cityscapesの検証セットの実験では、ATV-Netは80.31% mIoUを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent semantic segmentation research has increasingly moved toward stronger context modeling, dense attention, and transformer-based architectures. Although these models achieve impressive performance, classical CNN-based segmentation pipelines remain attractive because of their simplicity, efficiency, and ease of implementation. This paper revisits a practical question: how far can a ResNet-based segmentation model be improved by only modifying the segmentation head? We propose ATV-Net, an Adaptive Triple-View Network that strengthens a ResNet-101 backbone using three simple but complementary receptive-field views. The micro view captures point-wise semantic responses, the local view models neighborhood structures and object boundaries, and the scout view provides enlarged contextual cues. Instead of fusing these views with fixed weights, ATV-Net introduces an Adaptive Decision Gate that dynamically selects receptive-field responses according to input scene characteristics. A compact global coordination layer is further applied to improve spatial and semantic consistency. Experiments on the Cityscapes validation set show that ATV-Net achieves 80.31\% mIoU. This result suggests that classical CNN-based segmentation is still far from obsolete: with simple receptive-field views and adaptive fusion, a ResNet-based pipeline can reach a competitive accuracy level without relying on transformer-style global attention or overly complex context modules.
- Abstract(参考訳): 最近のセマンティックセグメンテーション研究は、より強いコンテキストモデリング、集中的な注意、そしてトランスフォーマーに基づくアーキテクチャへと向かっている。
これらのモデルは優れた性能を発揮するが、従来のCNNベースのセグメンテーションパイプラインは、その単純さ、効率、実装の容易さのために魅力的なままである。
本稿では,ResNetベースのセグメンテーションモデルにおいて,セグメンテーションヘッドを変更するだけで,どこまで改善できるのか,という現実的な問題を再考する。
本稿では,ResNet-101のバックボーンを強化する適応型トリプルビューネットワークであるATV-Netを提案する。
マイクロビューは、ポイントワイドなセマンティックレスポンス、ローカルビューは、近隣構造とオブジェクト境界をモデル化し、スカウトビューは、拡張されたコンテキストキューを提供する。
これらのビューを固定重みで融合させる代わりに、ATV-Netは、入力シーン特性に応じて動的に受信フィールド応答を選択する適応決定ゲートを導入する。
さらに、空間的および意味的整合性を改善するために、コンパクトなグローバルコーディネート層が適用される。
Cityscapesの検証セットの実験では、ATV-Netは80.31\% mIoUを達成した。
この結果は、従来のCNNベースのセグメンテーションは、まだ古いものではないことを示唆している: シンプルな受容フィールドビューと適応融合により、ResNetベースのパイプラインは、トランスフォーマースタイルのグローバルアテンションや過度に複雑なコンテキストモジュールに頼ることなく、競争の精度レベルに達することができる。
関連論文リスト
- RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。
従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。
エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文 参考訳(メタデータ) (2024-08-16T07:12:47Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Gated Path Selection Network for Semantic Segmentation [72.44994579325822]
我々は,適応的な受容場を学習することを目的とした,GPSNetという新しいネットワークを開発した。
GPSNetにおいて、我々はまず2次元のマルチスケールネットワーク、SuperNetを設計する。
望ましいセマンティックコンテキストを動的に選択するために、ゲート予測モジュールがさらに導入される。
論文 参考訳(メタデータ) (2020-01-19T12:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。