論文の概要: Resource Efficient Perception for Vision Systems
- arxiv url: http://arxiv.org/abs/2405.07166v1
- Date: Sun, 12 May 2024 05:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:08:19.398856
- Title: Resource Efficient Perception for Vision Systems
- Title(参考訳): ビジョンシステムのための資源効率のよい認識
- Authors: A V Subramanyam, Niyati Singal, Vinay K Verma,
- Abstract要約: 本研究では,高解像度画像に対するメモリ効率のパッチベース処理を活用することにより,これらの課題を軽減するためのフレームワークを提案する。
ローカルなパッチ情報と共にグローバルなコンテキスト表現が組み込まれており、画像の内容の包括的な理解を可能にする。
分類,オブジェクト検出,セグメンテーションにまたがる7つのベンチマークにおいて,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancement in the field of image recognition, the processing of high-resolution imagery remains a computational challenge. However, this processing is pivotal for extracting detailed object insights in areas ranging from autonomous vehicle navigation to medical imaging analyses. Our study introduces a framework aimed at mitigating these challenges by leveraging memory efficient patch based processing for high resolution images. It incorporates a global context representation alongside local patch information, enabling a comprehensive understanding of the image content. In contrast to traditional training methods which are limited by memory constraints, our method enables training of ultra high resolution images. We demonstrate the effectiveness of our method through superior performance on 7 different benchmarks across classification, object detection, and segmentation. Notably, the proposed method achieves strong performance even on resource-constrained devices like Jetson Nano. Our code is available at https://github.com/Visual-Conception-Group/Localized-Perception-Constrained-Vision-Systems.
- Abstract(参考訳): 画像認識分野の急速な進歩にもかかわらず、高解像度画像の処理は依然として計算上の課題である。
しかし、この処理は、自律走行車ナビゲーションから医療画像解析まで幅広い領域における詳細な物体の洞察を抽出する上で重要である。
本研究では,高解像度画像に対するメモリ効率のパッチベース処理を活用することにより,これらの課題を軽減するためのフレームワークを提案する。
ローカルなパッチ情報と共にグローバルなコンテキスト表現が組み込まれており、画像の内容の包括的な理解を可能にする。
メモリ制約によって制限される従来のトレーニング手法とは対照的に,本手法は超高解像度画像のトレーニングを可能にする。
分類,オブジェクト検出,セグメンテーションにまたがる7つのベンチマークにおいて,本手法の有効性を示す。
提案手法は,Jetson Nanoのような資源制約のあるデバイスでも高い性能を実現する。
私たちのコードはhttps://github.com/Visual-Conception-Group/Localized-Perception-Constrained-Vision-Systemsで利用可能です。
関連論文リスト
- SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。
PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。
また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文 参考訳(メタデータ) (2024-07-25T11:22:54Z) - UnSegGNet: Unsupervised Image Segmentation using Graph Neural Networks [9.268228808049951]
この研究は、教師なし医療画像とコンピュータビジョンの幅広い分野に貢献する。
これは、現実世界の課題に沿うイメージセグメンテーションのための革新的な方法論である。
提案手法は,医用画像,リモートセンシング,物体認識など,多様な応用の可能性を秘めている。
論文 参考訳(メタデータ) (2024-05-09T19:02:00Z) - On the Effect of Image Resolution on Semantic Segmentation [27.115235051091663]
本研究では,高分解能セグメンテーションを直接生成できるモデルが,より複雑なシステムの性能と一致することを示す。
提案手法は,ボトムアップ情報伝搬手法を様々なスケールで活用する。
先進的なセマンティックセグメンテーションデータセットを用いて,本手法を厳格に検証した。
論文 参考訳(メタデータ) (2024-02-08T04:21:30Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Super-Resolving Face Image by Facial Parsing Information [52.1267613768555]
顔超解像は、低解像度の顔画像を対応する高解像度の画像に変換する技術である。
我々は,低解像度の顔画像から先行する顔を抽出する,新しい解析マップ付き顔超解像ネットワークを構築した。
高解像度特徴はより正確な空間情報を含み、低解像度特徴は強い文脈情報を提供する。
論文 参考訳(メタデータ) (2023-04-06T08:19:03Z) - Cross-resolution Face Recognition via Identity-Preserving Network and
Knowledge Distillation [12.090322373964124]
クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能画像の低周波成分に蓄積される識別情報にネットワークを集中させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - A Robust Morphological Approach for Semantic Segmentation of Very High
Resolution Images [2.2230089845369085]
既存のセマンティックセグメンテーションアルゴリズムを高解像度画像にシームレスに拡張する堅牢なパイプラインを開発する。
提案手法では,高解像度画像の真理アノテーションは不要である。
提案手法により得られたセマンティックセグメンテーションの結果が,高解像度画像上の既存の最先端アルゴリズムに勝っていることを示す。
論文 参考訳(メタデータ) (2022-08-02T05:25:35Z) - Toward an ImageNet Library of Functions for Global Optimization
Benchmarking [0.0]
本研究では,認識問題を画像認識問題に変換することを提案する。
教師付きマルチクラス画像認識問題として対処し、基本的ニューラルネットワークモデルを適用して解決する。
この明らかに成功した学習は、自動特徴抽出とBBO問題の局所構造推論への別のステップである。
論文 参考訳(メタデータ) (2022-06-27T21:05:00Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。