論文の概要: Self-Attention Between Datapoints: Going Beyond Individual Input-Output
Pairs in Deep Learning
- arxiv url: http://arxiv.org/abs/2106.02584v1
- Date: Fri, 4 Jun 2021 16:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:19:04.263910
- Title: Self-Attention Between Datapoints: Going Beyond Individual Input-Output
Pairs in Deep Learning
- Title(参考訳): データポイント間の自己認識:ディープラーニングにおける個々の入力出力ペアを超えて
- Authors: Jannik Kossen, Neil Band, Clare Lyle, Aidan N. Gomez, Tom Rainforth,
Yarin Gal
- Abstract要約: 一度に1つのデータポイントを処理するのではなく、データセット全体を入力として扱う汎用ディープラーニングアーキテクチャを導入します。
このアプローチでは、データポイント間の関係を明示的に推論するために、自己注意を使用します。
従来の非パラメトリックモデルとは異なり、予測に他のデータポイントを使う方法をデータからエンド・ツー・エンドに学習させる。
- 参考スコア(独自算出の注目度): 36.047444794544425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We challenge a common assumption underlying most supervised deep learning:
that a model makes a prediction depending only on its parameters and the
features of a single input. To this end, we introduce a general-purpose deep
learning architecture that takes as input the entire dataset instead of
processing one datapoint at a time. Our approach uses self-attention to reason
about relationships between datapoints explicitly, which can be seen as
realizing non-parametric models using parametric attention mechanisms. However,
unlike conventional non-parametric models, we let the model learn end-to-end
from the data how to make use of other datapoints for prediction. Empirically,
our models solve cross-datapoint lookup and complex reasoning tasks unsolvable
by traditional deep learning models. We show highly competitive results on
tabular data, early results on CIFAR-10, and give insight into how the model
makes use of the interactions between points.
- Abstract(参考訳): モデルがそのパラメータと1つの入力の特徴のみに依存する予測を行うという、最も教師付き深層学習の基礎となる共通の仮定に挑戦する。
この目的のために,1つのデータポイントを一度に処理するのではなく,データセット全体を入力する汎用ディープラーニングアーキテクチャを導入する。
我々のアプローチでは,データポイント間の関係を明示的に推論するために自己注意を用いており,パラメトリックアテンション機構を用いた非パラメトリックモデルの実現と見ることができる。
しかし、従来の非パラメトリックモデルとは異なり、予測に他のデータポイントを使う方法をデータからエンド・ツー・エンドに学習させる。
経験的に、我々のモデルは、従来のディープラーニングモデルでは解決できない、データ間のルックアップと複雑な推論タスクを解決します。
表データとcifar-10の初期結果の競争力が高い結果を示し,そのモデルが点間の相互作用をどのように利用するのかを考察する。
関連論文リスト
- Fitting Multiple Machine Learning Models with Performance Based Clustering [8.763425474439552]
従来の機械学習のアプローチは、データが単一の生成メカニズムから来ると仮定している。
本稿では,特徴値と対象値の関係に応じてデータをグループ化することで,この仮定を解消するクラスタリングフレームワークを提案する。
フレームワークをストリーミングデータを持つアプリケーションに拡張し、モデルのアンサンブルを使用して結果を生成する。
論文 参考訳(メタデータ) (2024-11-10T19:38:35Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - EAMDrift: An interpretable self retrain model for time series [0.0]
EAMDrift(EAMDrift)は、複数の個人予測器から予測を合成し、性能指標に従って予測を重み付けする新しい手法である。
EAMDriftはデータのアウト・オブ・ディストリビューションパターンに自動的に適応し、各瞬間に使用する最も適切なモデルを特定するように設計されている。
本研究は,EAMDriftが個々のベースラインモデルより20%優れ,非解釈可能なアンサンブルモデルに匹敵する精度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:25:26Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Deep Explainable Learning with Graph Based Data Assessing and Rule
Reasoning [4.369058206183195]
本稿では、ノイズハンドリングにおけるディープモデルの利点とエキスパートルールに基づく解釈可能性を組み合わせたエンドツーエンドのディープ・ツー・エンドのディープ・説明可能な学習手法を提案する。
提案手法は, 工業生産システムにおいて, 予測精度に匹敵し, より高い一般化安定性, より優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2022-11-09T05:58:56Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。