Fugu-MT 論文翻訳(概要): Patch DCT vs LeNet

論文の概要: Patch DCT vs LeNet

arxiv url: http://arxiv.org/abs/2211.02392v1
Date: Fri, 4 Nov 2022 11:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 16:53:04.743059
Title: Patch DCT vs LeNet
Title（参考訳）: Patch DCT vs LeNet
Authors: David Sinclair
Abstract要約: 本稿では、画像パッチのDCT(Discrete Cosine Transform)の出力を、MNISTの手書き桁を分類するためのleNetと比較する。 DCTの根底にある基底関数は、Visual Transformerの学習した基底関数のいくつかに類似しているが、適用は桁違い高速である。
参考スコア（独自算出の注目度）: 0.685316573653194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper compares the performance of a NN taking the output of a DCT (Discrete Cosine Transform) of an image patch with leNet for classifying MNIST hand written digits. The basis functions underlying the DCT bear a passing resemblance to some of the learned basis function of the Visual Transformer but are an order of magnitude faster to apply.
Abstract（参考訳）: 本稿では,画像パッチのdct(discrete cosine transform)出力であるnnの性能を,mnist手書き文字を分類するためのレネットと比較する。 DCTの根底にある基底関数は、Visual Transformerの学習した基底関数のいくつかに類似しているが、適用は桁違い高速である。

関連論文リスト

CAT: Content-Adaptive Image Tokenization [92.2116487267877]
本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
論文参考訳（メタデータ） (2025-01-06T16:28:47Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
Sorted Convolutional Network for Achieving Continuous Rotational Invariance [56.42518353373004]
テクスチャ画像のハンドメイドな特徴に着想を得たSorting Convolution (SC)を提案する。 SCは、追加の学習可能なパラメータやデータ拡張を必要とせずに連続的な回転不変性を達成する。以上の結果から, SCは, 上記の課題において, 最高の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-23T18:37:07Z)
DCT Perceptron Layer: A Transform Domain Approach for Convolution Layer [3.506018346865459]
我々はDCT-perceptronと呼ぶ新しい離散コサイン変換(DCT)ベースのニューラルネットワーク層を提案する。畳み込みフィルタリング操作はDCT領域で要素ワイド乗算を用いて実行される。 DCT-パーセプトロン層はパラメータの数と乗算を著しく削減する。
論文参考訳（メタデータ） (2022-11-15T23:44:56Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)
Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文参考訳（メタデータ） (2021-02-27T03:12:16Z)
CPTR: Full Transformer Network for Image Captioning [15.869556479220984]
CaPtion TransformeR(CPTR)は、シーケンシャル化された生画像をTransformerへの入力として取り込む。 cnn+transformer"設計パラダイムと比較すると,本モデルは最初からすべてのエンコーダ層でグローバルコンテキストをモデル化することができる。
論文参考訳（メタデータ） (2021-01-26T14:29:52Z)
Learned Multi-Resolution Variable-Rate Image Compression with Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文参考訳（メタデータ） (2020-12-31T06:26:56Z)
Multi-focus Image Fusion for Visual Sensor Networks [2.7808182112731528]
視覚センサネットワーク(VSN)における画像融合は、同一シーンの複数の画像からの情報を組み合わせて、1つの画像をより多くの情報で変換することを目的としている。離散コサイン変換(DCT)に基づく画像融合法は、画像とビデオの標準規格であるDCTにおいて、より複雑で時間節約である。 DCT領域における多焦点画像の融合のための効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-28T20:39:35Z)
A Multiparametric Class of Low-complexity Transforms for Image and Video Coding [0.0]
本稿では,Bouguezel,Ahmed,Swamyの一連の論文に基づいて,低複素度8点DCT近似の新たなクラスを導入する。最適DCT近似は、符号化効率と画像品質の指標の点で魅力的な結果を示すことを示す。
論文参考訳（メタデータ） (2020-06-19T21:56:58Z)
Visual Transformers: Token-based Image Representation and Processing for Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。 LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文参考訳（メタデータ） (2020-06-05T20:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。