論文の概要: A self-supervised learning approach to deep filter banks for texture recognition
- arxiv url: http://arxiv.org/abs/2605.27843v1
- Date: Wed, 27 May 2026 01:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.680924
- Title: A self-supervised learning approach to deep filter banks for texture recognition
- Title(参考訳): テクスチャ認識のための深層フィルタバンクのための自己教師付き学習手法
- Authors: Joao B. Florindo, Lucas O. Lyra, Antonio E. Fabris,
- Abstract要約: 本稿では,事前学習モデルが畳み込みオートエンコーダとなるフレームワークを提案する。
テクスチャパターンによって伝達されるリッチな情報を活用するために、ディープフィルタとフィッシャーベクトルプールを用いる。
本手法はテクスチャデータベースにおけるいくつかの最先端手法と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important challenge in texture recognition is the limited amount of data for training frequently found in real-world applications. In computer vision in general, a successful strategy to mitigate this issue is the use of a pretraining stage where the neural network learns to identify relations between parts of the data in a self-supervised manner. A well-established framework in this direction is masked autoencoder. Nevertheless, these models usually rely on computationally intensive architectures, such as vision transformers. In the particular case of texture images, most of the relevant information is compacted within a delimited area around each pixel, which suggests that capturing long-range dependence via the attention mechanism may be unnecessary. Based on that assumption, here we propose a framework where the pretraining model is a convolutional autoencoder. To leverage the rich information conveyed by texture patterns, we employ deep filters coupled with Fisher vector pooling. In this way, we improve the performance of texture recognition without adding significant computational burden. Our approach is compared with several state-of-the-art methods in different texture databases, confirming its potential both in terms of classification accuracy and computational complexity.
- Abstract(参考訳): テクスチャ認識における重要な課題は、現実世界のアプリケーションで頻繁に見られるトレーニングのための限られた量のデータである。
コンピュータビジョン全般において、この問題を緩和するための成功戦略は、ニューラルネットワークが自己管理的な方法でデータ間の関係を識別することを学ぶ事前訓練ステージを使用することである。
この方向に確立されたフレームワークは、オートエンコーダである。
しかしながら、これらのモデルは通常、視覚変換器のような計算集約的なアーキテクチャに依存している。
特にテクスチャ画像の場合、関連する情報のほとんどは、各画素の周囲の区切られた領域内で圧縮されるため、注意機構による長距離依存のキャプチャは不要である可能性がある。
そこで本研究では,事前学習モデルが畳み込みオートエンコーダとなるフレームワークを提案する。
テクスチャパターンによって伝達されるリッチな情報を活用するために,Fisherベクトルプールと組み合わせたディープフィルタを用いる。
このようにして、計算負荷を増大させることなく、テクスチャ認識の性能を向上させる。
本手法は,テクスチャデータベースにおけるいくつかの最先端手法と比較し,分類精度と計算複雑性の両面からその可能性を確認する。
関連論文リスト
- Learning Before Filtering: Real-Time Hardware Learning at the Detector Level [0.0]
本稿では,リアルタイムニューラルネットワークトレーニングのためのディジタルハードウェアアーキテクチャを提案する。
アーキテクチャはスケーラブルで適応性があり、検出器システムに直接学習を統合するための大きな進歩を示している。
論文 参考訳(メタデータ) (2025-06-13T17:38:16Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Augmenting Deep Learning Adaptation for Wearable Sensor Data through
Combined Temporal-Frequency Image Encoding [4.458210211781739]
本稿では、時間領域情報と周波数領域情報をシームレスに統合した、新しい修正繰り返しプロットベースの画像表現を提案する。
加速度センサを用いた活動認識データと事前訓練されたResNetモデルを用いて提案手法の評価を行い,既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-03T09:29:27Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Robustness and invariance properties of image classifiers [8.970032486260695]
ディープニューラルネットワークは多くの画像分類タスクで印象的な結果を得た。
ディープネットワークは、多種多様なセマンティック保存画像修正に対して堅牢ではない。
画像分類器の小さなデータ分散シフトに対する堅牢性の低さは、その信頼性に関する深刻な懸念を引き起こす。
論文 参考訳(メタデータ) (2022-08-30T11:00:59Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - A cellular automata approach to local patterns for texture recognition [3.42658286826597]
本稿では, セルオートマトンによる複雑な物体の表現力と, テクスチャ解析における局所記述子の既知の有効性を組み合わせたテクスチャ記述法を提案する。
我々の提案は、特に現実世界の問題において、他の古典的、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-15T03:25:51Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。