論文の概要: Nearness of Neighbors Attention for Regression in Supervised Finetuning
- arxiv url: http://arxiv.org/abs/2506.08139v1
- Date: Mon, 09 Jun 2025 18:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.45846
- Title: Nearness of Neighbors Attention for Regression in Supervised Finetuning
- Title(参考訳): 監督ファインタニングにおける近隣住民の回帰注意の近さ
- Authors: Aviad Susman, Mayte Suárez-Fariñas, Joseph T Colonel,
- Abstract要約: 我々はNearness of Neighbors Attention (NONA)レグレッション層を紹介する。
NONAは、ニューラルネットワークの注意の力学と、k-NN回帰アルゴリズムの微分可能なプロキシを生成するために、新しい学習されたアテンションマスキングスキームを使用する。
複数の非構造化データセットの結果は、回帰のためのSFT埋め込みにおいて、高密度層予測とk-NNの両方よりも性能が向上したことを示している。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is common in supervised machine learning to combine the feature extraction capabilities of neural networks with the predictive power of traditional algorithms, such as k-nearest neighbors (k-NN) or support vector machines. This procedure involves performing supervised fine-tuning (SFT) on a domain-appropriate feature extractor, followed by training a traditional predictor on the resulting SFT embeddings. When used in this manner, traditional predictors often deliver increased performance over the SFT model itself, despite the fine-tuned feature extractor yielding embeddings specifically optimized for prediction by the neural network's final dense layer. This suggests that directly incorporating traditional algorithms into SFT as prediction layers may further improve performance. However, many traditional algorithms have not been implemented as neural network layers due to their non-differentiable nature and their unique optimization requirements. As a step towards solving this problem, we introduce the Nearness of Neighbors Attention (NONA) regression layer. NONA uses the mechanics of neural network attention and a novel learned attention-masking scheme to yield a differentiable proxy of the k-NN regression algorithm. Results on multiple unstructured datasets show improved performance over both dense layer prediction and k-NN on SFT embeddings for regression.
- Abstract(参考訳): ニューラルネットワークの特徴抽出能力と、k-nearest neighbors(k-NN)やサポートベクターマシンといった従来のアルゴリズムの予測能力を組み合わせることは、教師あり機械学習において一般的である。
この手順は、ドメインに適した特徴抽出器で教師付き微調整(SFT)を行い、続いてSFT埋め込みの従来の予測器を訓練する。
このような方法で使用すると、ニューラルネットワークの最終密度層による予測に特異的に最適化された埋め込みを出力する微調整された特徴抽出器にもかかわらず、従来の予測器はSFTモデル自体よりもパフォーマンスが向上することが多い。
これは、従来のアルゴリズムを直接SFTに組み込んで予測層として組み込むことにより、さらなる性能向上が期待できることを示唆している。
しかしながら、多くの従来のアルゴリズムは、その非微分不可能な性質とユニークな最適化要求のために、ニューラルネットワーク層として実装されていない。
この問題を解決するためのステップとして、我々はNearness of Neighbors Attention (NONA)レグレッション層を紹介します。
NONAは、ニューラルネットワークの注意の力学と、k-NN回帰アルゴリズムの微分可能なプロキシを生成するために、新しい学習されたアテンションマスキングスキームを使用する。
複数の非構造化データセットの結果は、回帰のためのSFT埋め込みにおいて、高密度層予測とk-NNの両方よりも性能が向上したことを示している。
関連論文リスト
- Deep-Unrolling Multidimensional Harmonic Retrieval Algorithms on Neuromorphic Hardware [78.17783007774295]
本稿では,高精度かつエネルギー効率の高い単発多次元高調波検索のための変換に基づくニューロモルフィックアルゴリズムの可能性について検討する。
複雑な値の畳み込み層と活性化をスパイクニューラルネットワーク(SNN)に変換する新しい手法を開発した。
変換されたSNNは、元のCNNに比べて性能が低下し、ほぼ5倍の電力効率を実現している。
論文 参考訳(メタデータ) (2024-12-05T09:41:33Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Exact Gradient Computation for Spiking Neural Networks Through Forward
Propagation [39.33537954568678]
従来のニューラルネットワークに代わるものとして、スパイキングニューラルネットワーク(SNN)が登場している。
本稿では,SNNの正確な勾配を計算できるEmphforward propagation (FP)と呼ばれる新しいトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:28:21Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - CCasGNN: Collaborative Cascade Prediction Based on Graph Neural Networks [0.49269463638915806]
カスケード予測は,ネットワーク内の情報拡散をモデル化することを目的とした。
グラフニューラルネットワークとリカレントニューラルネットワークによるネットワーク構造とシーケンス特徴の組み合わせに関する研究
本稿では,個々のプロファイル,構造特徴,シーケンス情報を考慮した新しいCCasGNNを提案する。
論文 参考訳(メタデータ) (2021-12-07T11:37:36Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Error-feedback stochastic modeling strategy for time series forecasting
with convolutional neural networks [11.162185201961174]
本稿では,ランダム畳み込みネットワーク(ESM-CNN)ニューラル時系列予測タスクを構築するための新しいError-feedback Modeling (ESM)戦略を提案する。
提案したESM-CNNは、最先端のランダムニューラルネットワークを上回るだけでなく、トレーニングされた最先端のディープニューラルネットワークモデルと比較して、予測能力と計算オーバーヘッドの低減も実現している。
論文 参考訳(メタデータ) (2020-02-03T13:30:29Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。