論文の概要: A Simple Fix for Convolutional Neural Network via Coordinate Embedding
- arxiv url: http://arxiv.org/abs/2003.10589v1
- Date: Tue, 24 Mar 2020 00:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:40:16.810247
- Title: A Simple Fix for Convolutional Neural Network via Coordinate Embedding
- Title(参考訳): コーディネート埋め込みによる畳み込みニューラルネットワークの簡単な修正法
- Authors: Liliang Ren, Zhuonan Hao
- Abstract要約: 座標埋め込みによるCNNモデルに座標情報を組み込むための簡単な手法を提案する。
我々のアプローチは下流モデルアーキテクチャを変更せず、オブジェクト検出のようなタスクのためにトレーニング済みのモデルに容易に適用することができる。
- 参考スコア(独自算出の注目度): 2.1320960069210484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNN) has been widely applied in the realm of
computer vision. However, given the fact that CNN models are translation
invariant, they are not aware of the coordinate information of each pixel. Thus
the generalization ability of CNN will be limited since the coordinate
information is crucial for a model to learn affine transformations which
directly operate on the coordinate of each pixel. In this project, we proposed
a simple approach to incorporate the coordinate information to the CNN model
through coordinate embedding. Our approach does not change the downstream model
architecture and can be easily applied to the pre-trained models for the task
like object detection. Our experiments on the German Traffic Sign Detection
Benchmark show that our approach not only significantly improve the model
performance but also have better robustness with respect to the affine
transformation.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンの領域で広く応用されている。
しかし、cnnモデルが翻訳不変であるという事実から、各ピクセルの座標情報を認識していない。
したがって、cnnの一般化能力は、各ピクセルの座標に直接作用するアフィン変換をモデルが学習するためには座標情報が必要であるため、制限される。
本稿では,座標埋め込みによる座標情報をCNNモデルに組み込むための簡単な手法を提案する。
我々のアプローチは下流モデルアーキテクチャを変更せず、オブジェクト検出のようなタスクのためにトレーニング済みのモデルに容易に適用することができる。
ドイツ交通信号検出ベンチマークの実験により,本手法はモデル性能を著しく向上するだけでなく,アフィン変換に対する堅牢性も向上することが示された。
関連論文リスト
- Model Parallel Training and Transfer Learning for Convolutional Neural Networks by Domain Decomposition [0.0]
ディープ畳み込みニューラルネットワーク(CNN)は、幅広い画像処理アプリケーションで非常に成功したことが示されている。
モデルパラメータの増大と大量のトレーニングデータの増加により、複雑なCNNを効率的に訓練するための並列化戦略が必要である。
論文 参考訳(メタデータ) (2024-08-26T17:35:01Z) - CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation [60.08541107831459]
本稿では,医用画像セグメンテーションのための強力なCNNベースモデルとトランスフォーマーベースモデルを学習するための,CNN-Transformer修正協調学習フレームワークを提案する。
具体的には,学生ソフトラベルの誤り領域を適応的に選択・修正する基礎的真理を取り入れた修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,機能空間におけるCNNベースモデルとTransformerベースモデル間の効果的な知識伝達を実現するために,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
論文 参考訳(メタデータ) (2024-08-25T01:27:35Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Lookup subnet based Spatial Graph Convolutional neural Network [3.119764474774276]
本研究では,CNNを非ユークリッド領域に自然に一般化するクロス相関グラフ畳み込み法を提案する。
提案手法は,3つの確立されたグラフベンチマークにおいて,最先端の実績を達成あるいは一致させた。
論文 参考訳(メタデータ) (2021-02-04T13:05:30Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。