論文の概要: Shared Neural Space: Unified Precomputed Feature Encoding for Multi-Task and Cross Domain Vision
- arxiv url: http://arxiv.org/abs/2509.20481v1
- Date: Wed, 24 Sep 2025 18:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.545283
- Title: Shared Neural Space: Unified Precomputed Feature Encoding for Multi-Task and Cross Domain Vision
- Title(参考訳): 共有ニューラルスペース:マルチタスクとクロスドメインビジョンのための統一された事前計算機能符号化
- Authors: Jing Li, Oskar Bartosz, Chengyu Wang, Michal Wnuczynski, Dilshan Godaliyadda, Michael Polley,
- Abstract要約: 本稿では,エンコーダ・デコーダ・フレームワークが視覚および撮像タスク間で機能をプリコンプリートするユニバーサルニューラル・スペースを提案する。
エンコーダは変換を意識し、一般化可能な表現を学び、複数の下流AIモジュールが同じ機能空間を共有できるようにします。
我々は、NSにおいて、復調、復調、深度推定、セマンティックセグメンテーションなどの画像および視覚モジュールを効率的に実行できることを実証した。
- 参考スコア(独自算出の注目度): 6.3796451378950385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of AI models in imaging and vision are customized to perform on specific high-precision task. However, this strategy is inefficient for applications with a series of modular tasks, since each requires a mapping into a disparate latent domain. To address this inefficiency, we proposed a universal Neural Space (NS), where an encoder-decoder framework pre-computes features across vision and imaging tasks. Our encoder learns transformation aware, generalizable representations, which enable multiple downstream AI modules to share the same feature space. This architecture reduces redundancy, improves generalization across domain shift, and establishes a foundation for effecient multi-task vision pipelines. Furthermore, as opposed to larger transformer backbones, our backbone is lightweight and CNN-based, allowing for wider across hardware. We furthur demonstrate that imaging and vision modules, such as demosaicing, denoising, depth estimation and semantic segmentation can be performed efficiently in the NS.
- Abstract(参考訳): イメージングとビジョンにおけるAIモデルの大部分は、特定の高精度タスクで実行するようにカスタマイズされている。
しかし、この戦略は、異なる潜在ドメインへのマッピングを必要とするため、一連のモジュラータスクを持つアプリケーションでは非効率である。
この非効率性に対処するために,エンコーダ・デコーダ・フレームワークが視覚や画像のタスクにまたがって機能をプリコンプリートする,ユニバーサルニューラルネットワーク(NS)を提案する。
我々のエンコーダは変換を意識し、一般化可能な表現を学び、複数の下流AIモジュールが同じ機能空間を共有できるようにします。
このアーキテクチャは冗長性を低減し、ドメインシフト間の一般化を改善し、効率的なマルチタスクビジョンパイプラインの基礎を確立する。
さらに、大きなトランスフォーマーバックボーンとは対照的に、私たちのバックボーンは軽量でCNNベースで、ハードウェアをまたいで広く使用できます。
我々は、NSにおいて、復調、復調、深度推定、セマンティックセグメンテーションなどの画像および視覚モジュールを効率的に行うことができることを示す。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function [1.3812010983144802]
本稿では、Vision Transformer ViTブロックの代替として、新しい計算ブロックを提案する。
新たに提案したブロックは、通常の注意層をネットワーク構造に置き換えることで、計算要求を減らす。
ビジョンドメインの画像分類タスクに適用される複数のデータセットのベースラインアーキテクチャよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。