論文の概要: A lightweight Transformer-based model for fish landmark detection
- arxiv url: http://arxiv.org/abs/2209.05777v1
- Date: Tue, 13 Sep 2022 07:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:51:34.530819
- Title: A lightweight Transformer-based model for fish landmark detection
- Title(参考訳): 魚のランドマーク検出のための軽量トランスフォーマーモデル
- Authors: Alzayat Saleh, David Jones, Dean Jerry, Mostafa Rahimi Azghadi
- Abstract要約: 我々は移動魚のランドマーク検出ネットワーク(MFLD-net)と呼ばれる新しいモデルアーキテクチャを開発する。
MFLD-netは、軽量でありながら、低いデータレシエーションにおいて、競争力またはより良い結果を達成することができる。
ViTとは異なり、MFLD-netは事前トレーニングされたモデルを必要としない。
- 参考スコア(独自算出の注目度): 4.08805092034476
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based models, such as the Vision Transformer (ViT), can
outperform onvolutional Neural Networks (CNNs) in some vision tasks when there
is sufficient training data. However, (CNNs) have a strong and useful inductive
bias for vision tasks (i.e. translation equivariance and locality). In this
work, we developed a novel model architecture that we call a Mobile fish
landmark detection network (MFLD-net). We have made this model using
convolution operations based on ViT (i.e. Patch embeddings, Multi-Layer
Perceptrons). MFLD-net can achieve competitive or better results in low data
regimes while being lightweight and therefore suitable for embedded and mobile
devices. Furthermore, we show that MFLD-net can achieve keypoint (landmark)
estimation accuracies on-par or even better than some of the state-of-the-art
(CNNs) on a fish image dataset. Additionally, unlike ViT, MFLD-net does not
need a pre-trained model and can generalise well when trained on a small
dataset. We provide quantitative and qualitative results that demonstrate the
model's generalisation capabilities. This work will provide a foundation for
future efforts in developing mobile, but efficient fish monitoring systems and
devices.
- Abstract(参考訳): vision transformer (vit)のようなトランスフォーマーベースのモデルは、十分なトレーニングデータがある場合、いくつかの視覚タスクでonvolutional neural networks (cnns)を上回ることができる。
しかし、(CNN)は視覚タスク(すなわち翻訳同値と局所性)に対して強く有用な帰納バイアスを持つ。
本研究では,移動魚のランドマーク検出ネットワーク(MFLD-net)と呼ばれる新しいモデルアーキテクチャを開発した。
ViT(Patch Embeddings, Multi-Layer Perceptrons)に基づく畳み込み操作を用いてこのモデルを作成した。
MFLD-netは、軽量であり、組み込みデバイスやモバイルデバイスに適しているが、低データレシエーションにおいて、競争力またはより良い結果を達成することができる。
さらに,MFLD-netは,魚画像データセット上の最先端(CNN)のいくつかよりも高い精度でキーポイント(ランドマーク)推定を行うことができることを示す。
さらに、ViTとは異なり、MFLD-netは事前トレーニングされたモデルを必要としない。
モデルの一般化能力を示す定量的かつ質的な結果を提供する。
この研究は、モバイルで効率的な魚のモニタリングシステムとデバイスを開発するための基盤を提供する。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - Masked autoencoders are effective solution to transformer data-hungry [0.0]
ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
ViTには、畳み込みに固有の帰納バイアスがなく、トレーニングに大量のデータを必要とする。
マスク付きオートエンコーダ(MAE)は、トランスフォーマーが画像自体にもっと焦点を合わせることができる。
論文 参考訳(メタデータ) (2022-12-12T03:15:19Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer [52.0699787446221]
自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
論文 参考訳(メタデータ) (2022-08-06T16:54:45Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。