論文の概要: Raw Produce Quality Detection with Shifted Window Self-Attention
- arxiv url: http://arxiv.org/abs/2112.13845v1
- Date: Fri, 24 Dec 2021 10:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-02 08:18:35.221359
- Title: Raw Produce Quality Detection with Shifted Window Self-Attention
- Title(参考訳): シフトウインドウセルフアテンションによる原料品質検出
- Authors: Oh Joon Kwon, Byungsoo Kim, Youngduck Choi
- Abstract要約: 本研究では,近年の風内・風内両方の自己注意を算出したスウィントランスについて検討する。
4つのRPQD画像データセット上で,Swin TransformerとCNNモデルを比較した。
我々は,Swin Transformerが優れた性能や競争性能を達成するだけでなく,データや計算効率も向上すると考えている。
- 参考スコア(独自算出の注目度): 2.5137859989323537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global food insecurity is expected to worsen in the coming decades with the
accelerated rate of climate change and the rapidly increasing population. In
this vein, it is important to remove inefficiencies at every level of food
production. The recent advances in deep learning can help reduce such
inefficiencies, yet their application has not yet become mainstream throughout
the industry, inducing economic costs at a massive scale. To this point, modern
techniques such as CNNs (Convolutional Neural Networks) have been applied to
RPQD (Raw Produce Quality Detection) tasks. On the other hand, Transformer's
successful debut in the vision among other modalities led us to expect a better
performance with these Transformer-based models in RPQD. In this work, we
exclusively investigate the recent state-of-the-art Swin (Shifted Windows)
Transformer which computes self-attention in both intra- and inter-window
fashion. We compare Swin Transformer against CNN models on four RPQD image
datasets, each containing different kinds of raw produce: fruits and
vegetables, fish, pork, and beef. We observe that Swin Transformer not only
achieves better or competitive performance but also is data- and
compute-efficient, making it ideal for actual deployment in real-world setting.
To the best of our knowledge, this is the first large-scale empirical study on
RPQD task, which we hope will gain more attention in future works.
- Abstract(参考訳): 気候変動の加速と人口の急増により、世界の食料不安全は今後数十年で悪化すると予想されている。
この静脈では、食品生産のあらゆるレベルで非効率を取り除くことが重要である。
ディープラーニングの最近の進歩は、そのような非効率性を減らすのに役立つが、その応用はまだ業界全体で主流になっておらず、大規模な経済コストを誘導している。
この点において、RPQD(Raw Produce Quality Detection)タスクにCNN(Convolutional Neural Networks)などの最新の技術が適用されている。
一方、Transformerが他のモダリティのビジョンで成功したことで、RPQDのTransformerベースのモデルよりも優れたパフォーマンスが期待できるようになりました。
本研究では,近年の最先端swin(shifted windows)トランスフォーマーについて,ウインドウ内とウインドウ間の両方で自己接触を計算した。
Swin Transformerを4種類のRPQD画像データセット上のCNNモデルと比較し、それぞれが果物、野菜、魚、豚肉、牛肉といった異なる種類の原料を含む。
swin transformerは、優れた性能や競争力を実現するだけでなく、データと計算効率も向上し、現実の環境での実際のデプロイメントに理想的です。
私たちの知る限りでは、これはrpqdタスクに関する最初の大規模な実証研究であり、今後の作業でさらに注目されることを期待しています。
関連論文リスト
- Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence? [106.81451807227103]
Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
論文 参考訳(メタデータ) (2023-03-31T17:56:33Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - A Generative Approach for Production-Aware Industrial Network Traffic
Modeling [70.46446906513677]
ドイツにあるTrumpf工場に配備されたレーザー切断機から発生するネットワークトラフィックデータについて検討した。
我々は、トラフィック統計を分析し、マシンの内部状態間の依存関係をキャプチャし、ネットワークトラフィックを生産状態依存プロセスとしてモデル化する。
可変オートエンコーダ(VAE)、条件付き可変オートエンコーダ(CVAE)、生成逆ネットワーク(GAN)など、様々な生成モデルの性能の比較を行った。
論文 参考訳(メタデータ) (2022-11-11T09:46:58Z) - SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and
Improved Training for Image Super-Resolution [1.305100137416611]
我々は、Fast Fourier Convolution (FFC) コンポーネントを置き換えることで、SwinIRを拡張するSwinFIRを提案する。
本アルゴリズムは,最新のSwinIR法よりも0.8dB高いManga109データセット上で32.83dBのPSNRを実現する。
論文 参考訳(メタデータ) (2022-08-24T01:04:47Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Vision Transformers For Weeds and Crops Classification Of High
Resolution UAV Images [3.1083892213758104]
ビジョントランスフォーマー(ViT)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を達成することができる。
実験の結果,ラベル付きトレーニングデータでは,最新のCNNモデルと比較して,ViTモデルの方が優れていた。
論文 参考訳(メタデータ) (2021-09-06T19:58:54Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。