論文の概要: Generalization Properties of Retrieval-based Models
- arxiv url: http://arxiv.org/abs/2210.02617v1
- Date: Thu, 6 Oct 2022 00:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:12:47.372756
- Title: Generalization Properties of Retrieval-based Models
- Title(参考訳): 検索モデルにおける一般化特性
- Authors: Soumya Basu, Ankit Singh Rawat, Manzil Zaheer
- Abstract要約: 検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
- 参考スコア(独自算出の注目度): 50.35325326050263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern high-performing machine learning models such as GPT-3 primarily
rely on scaling up models, e.g., transformer networks. Simultaneously, a
parallel line of work aims to improve the model performance by augmenting an
input instance with other (labeled) instances during inference. Examples of
such augmentations include task-specific prompts and similar examples retrieved
from the training data by a nonparametric component. Remarkably,
retrieval-based methods have enjoyed success on a wide range of problems,
ranging from standard natural language processing and vision tasks to protein
folding, as demonstrated by many recent efforts, including WebGPT and
AlphaFold. Despite growing literature showcasing the promise of these models,
the theoretical underpinning for such models remains underexplored. In this
paper, we present a formal treatment of retrieval-based models to characterize
their generalization ability. In particular, we focus on two classes of
retrieval-based classification approaches: First, we analyze a local learning
framework that employs an explicit local empirical risk minimization based on
retrieved examples for each input instance. Interestingly, we show that
breaking down the underlying learning task into local sub-tasks enables the
model to employ a low complexity parametric component to ensure good overall
accuracy. The second class of retrieval-based approaches we explore learns a
global model using kernel methods to directly map an input instance and
retrieved examples to a prediction, without explicitly solving a local learning
task.
- Abstract(参考訳): GPT-3のような現代の高性能機械学習モデルの多くは、主にトランスフォーマーネットワークのようなモデルのスケールアップに依存している。
同時に、並列処理は、推論中に入力インスタンスを他の(ラベル付き)インスタンスで拡張することで、モデルパフォーマンスを改善することを目的としている。
このような拡張の例としては、タスク固有のプロンプトや、非パラメトリックなコンポーネントによってトレーニングデータから取得された同様の例などがある。
驚くべきことに、検索ベースの手法は、webgptやalphafoldなど最近の多くの取り組みで示されているように、標準的な自然言語処理や視覚タスクからタンパク質折り畳みまで、幅広い問題で成功をおさめています。
これらのモデルの有望さを示す文献が増えているにもかかわらず、これらのモデルの理論的基礎は未検討のままである。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
特に,検索に基づく分類手法の2つのクラスに注目した。 まず,各入力インスタンスの検索例に基づく局所的経験的リスク最小化を用いた局所学習フレームワークの解析を行う。
興味深いことに、基礎となる学習タスクをローカルなサブタスクに分解することで、モデルが全体的な正確性を確保するために、複雑さの低いパラメトリックコンポーネントを採用することができる。
検索に基づく第2級のアプローチでは,局所学習タスクを明示的に解くことなく,カーネル手法を用いてグローバルモデルを学習し,入力インスタンスと検索したサンプルを直接予測にマップする。
関連論文リスト
- On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Robust Task-Oriented Dialogue Generation with Contrastive Pre-training
and Adversarial Filtering [17.7709632238066]
データアーティファクトは機械学習モデルにインセンティブを与え、非伝達可能な一般化を学ぶ。
我々は、MultiWOZのような一般的なデータセットがそのようなデータアーティファクトを含んでいるかどうかを検討する。
本稿では,これらの手法を無視し,一般化可能なパターンを学習することをモデルに推奨する,対照的な学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T03:13:02Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - A Topological-Framework to Improve Analysis of Machine Learning Model
Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。
本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文 参考訳(メタデータ) (2021-07-09T23:11:13Z) - Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid
Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。
我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文 参考訳(メタデータ) (2021-05-22T05:55:16Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。