論文の概要: K-Origins: Better Colour Quantification for Neural Networks
- arxiv url: http://arxiv.org/abs/2409.02281v1
- Date: Tue, 3 Sep 2024 20:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:14:11.205681
- Title: K-Origins: Better Colour Quantification for Neural Networks
- Title(参考訳): K-Origins: ニューラルネットワークにおけるカラー量子化の改善
- Authors: Lewis Mason, Mark Martinez,
- Abstract要約: K-Originsは、カラー学習時の画像ベースのネットワークパフォーマンスを改善するために設計されたニューラルネットワーク層である。
250以上のエンコーダとデコーダの畳み込みネットワークが16ビットの合成データで訓練され、テストされている。
異なる受容場を持つネットワークを学習し、ターゲットクラスの次元に基づいて最適なネットワーク深さを決定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: K-Origins is a neural network layer designed to improve image-based network performances when learning colour, or intensities, is beneficial. Over 250 encoder-decoder convolutional networks are trained and tested on 16-bit synthetic data, demonstrating that K-Origins improves semantic segmentation accuracy in two scenarios: object detection with low signal-to-noise ratios, and segmenting multiple objects that are identical in shape but vary in colour. K-Origins generates output features from the input features, $\textbf{X}$, by the equation $\textbf{Y}_k = \textbf{X}-\textbf{J}\cdot w_k$ for each trainable parameter $w_k$, where $\textbf{J}$ is a matrix of ones. Additionally, networks with varying receptive fields were trained to determine optimal network depths based on the dimensions of target classes, suggesting that receptive field lengths should exceed object sizes. By ensuring a sufficient receptive field length and incorporating K-Origins, we can achieve better semantic network performance.
- Abstract(参考訳): K-Originsは、色や強度を学ぶ際に、画像ベースのネットワークパフォーマンスを改善するように設計されたニューラルネットワーク層である。
250以上のエンコーダ・デコーダの畳み込みネットワークを16ビットの合成データでトレーニングし、K-Originsが2つのシナリオでセマンティックセグメンテーションの精度を改善することを示した。
K-Originsは入力特徴から出力特徴を生成する: $\textbf{X}$, by the equation $\textbf{Y}_k = \textbf{X}-\textbf{J}\cdot w_k$ for each trainable parameters $w_k$, where $\textbf{J}$ is a matrix of one.
さらに、異なる受容場を持つネットワークは、対象クラスの寸法に基づいて最適なネットワーク深さを決定するために訓練され、受容場の長さが対象サイズを超えることが示唆された。
K-Originsを組み込むことで、十分な受容場長を確保することで、セマンティックネットワークの性能を向上させることができる。
関連論文リスト
- VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Improved Dense Nested Attention Network Based on Transformer for
Infrared Small Target Detection [8.388564430699155]
深層学習に基づく赤外線小ターゲット検出は、複雑な背景と動的背景から小さなターゲットを分離する際、独特な利点をもたらす。
畳み込みニューラルネットワーク(CNN)の深さが増加するにつれて、赤外線小ターゲットの特徴は徐々に弱まる。
本稿では,トランスアーキテクチャに基づく高密度ネストアテンションネットワーク (IDNANet) を提案する。
論文 参考訳(メタデータ) (2023-11-15T07:29:24Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Color Equivariant Convolutional Networks [50.655443383582124]
CNNは、偶然に記録された条件によって導入された色の変化の間にデータ不均衡がある場合、苦労する。
カラースペクトル間の形状特徴共有を可能にする新しいディープラーニングビルディングブロックであるカラー等変畳み込み(CEConvs)を提案する。
CEConvsの利点は、様々なタスクに対するダウンストリーム性能と、列車-テストの分散シフトを含む色の変化に対するロバスト性の改善である。
論文 参考訳(メタデータ) (2023-10-30T09:18:49Z) - TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection [13.126051625000605]
RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-04T03:06:59Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。