論文の概要: ImageSig: A signature transform for ultra-lightweight image recognition
- arxiv url: http://arxiv.org/abs/2205.06929v1
- Date: Fri, 13 May 2022 23:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 13:58:17.729450
- Title: ImageSig: A signature transform for ultra-lightweight image recognition
- Title(参考訳): ImageSig:超軽量画像認識のためのシグネチャ変換
- Authors: Mohamed R. Ibrahim and Terry Lyons
- Abstract要約: ImageSigは計算シグネチャに基づいており、畳み込み構造やアテンションベースのエンコーダを必要としない。
ImageSigはRaspberry PiやJetson-nanoのようなハードウェアで前例のないパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a new lightweight method for image recognition.
ImageSig is based on computing signatures and does not require a convolutional
structure or an attention-based encoder. It is striking to the authors that it
achieves: a) an accuracy for 64 X 64 RGB images that exceeds many of the
state-of-the-art methods and simultaneously b) requires orders of magnitude
less FLOPS, power and memory footprint. The pretrained model can be as small as
44.2 KB in size. ImageSig shows unprecedented performance on hardware such as
Raspberry Pi and Jetson-nano. ImageSig treats images as streams with multiple
channels. These streams are parameterized by spatial directions. We contribute
to the functionality of signature and rough path theory to stream-like data and
vision tasks on static images beyond temporal streams. With very few parameters
and small size models, the key advantage is that one could have many of these
"detectors" assembled on the same chip; moreover, the feature acquisition can
be performed once and shared between different models of different tasks -
further accelerating the process. This contributes to energy efficiency and the
advancements of embedded AI at the edge.
- Abstract(参考訳): 本稿では,画像認識のための新しい軽量手法を提案する。
ImageSigは計算シグネチャに基づいており、畳み込み構造やアテンションベースのエンコーダを必要としない。
それが達成した著者には印象的です。
a)64 x 64 rgb画像の精度で,最先端の手法の多くを越え,同時に行うこと
b) FLOPS, 電力, メモリフットプリントを桁違いに少なくする。
事前訓練されたモデルは44.2KBまで小さくすることができる。
imagesigはraspberry piやjetson-nanoといったハードウェアで前例のないパフォーマンスを示している。
ImageSigは複数のチャンネルで画像をストリームとして扱う。
これらのストリームは空間方向によってパラメータ化される。
我々は,時間的ストリームを超えた静的画像上のストリームライクなデータや視覚タスクに対して,シグネチャと粗い経路理論の機能に寄与する。
非常に少ないパラメータと小さなサイズモデルでは、同じチップ上に多くの「検出器」を組み立てることが可能であり、その上、機能取得は一度実行され、プロセスが加速する異なるタスクのモデル間で共有される。
これは、エネルギー効率とエッジに埋め込まれたAIの進歩に寄与する。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Efficient Image Captioning for Edge Devices [8.724184244203892]
リソース制限されたデバイスのための軽量画像キャプタであるLightCapを提案する。
コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。
慎重に設計されたアーキテクチャでは、モデルのサイズを75%以上、FLOPを98%以上削減するパラメータが40万以上しか含まれていない。
論文 参考訳(メタデータ) (2022-12-18T01:56:33Z) - Iterative Patch Selection for High-Resolution Image Recognition [10.847032625429717]
本稿では,メモリ使用量を入力サイズから分離する単純な手法であるIPSを提案する。
IPSは、最も健全なパッチだけを選択してこれを達成し、画像認識のためのグローバルな表現に集約する。
本手法は,最小のアクセラレータメモリを使用しながら,異なる領域,トレーニング体制,画像サイズにまたがって高い性能を示し,幅広い適用性を有する。
論文 参考訳(メタデータ) (2022-10-24T07:55:57Z) - TINYCD: A (Not So) Deep Learning Model For Change Detection [68.8204255655161]
変化検出(CD)の目的は、同じ領域で発生した変化を異なる時間に撮影された2つの画像を比較して検出することである。
ディープラーニングの分野での最近の進歩により、研究者はこの分野で卓越した成果を得られるようになった。
我々はTinyCDと呼ばれる新しいモデルを提案し、軽量かつ効果的であることを実証した。
論文 参考訳(メタデータ) (2022-07-26T19:28:48Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。