論文の概要: ORCA: Interpreting Prompted Language Models via Locating Supporting Data
Evidence in the Ocean of Pretraining Data
- arxiv url: http://arxiv.org/abs/2205.12600v1
- Date: Wed, 25 May 2022 09:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:44:43.955568
- Title: ORCA: Interpreting Prompted Language Models via Locating Supporting Data
Evidence in the Ocean of Pretraining Data
- Title(参考訳): orca: 事前学習データの海におけるサポートデータ証拠の特定による言語モデルの解釈
- Authors: Xiaochuang Han and Yulia Tsvetkov
- Abstract要約: 大規模な事前訓練された言語モデルは、プロンプトを通じて様々な下流タスクにおいて、ますますよく機能している。
モデルがタスク固有の知識を、特にゼロショット設定でどこで学習するかは、まだ不明である。
この研究では、モデルが事前学習からタスク固有の能力を示す証拠を見つけ、特に事前学習データのごく小さなサブセットを見つけることに興味がある。
- 参考スコア(独自算出の注目度): 38.20984369410193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained language models have been performing increasingly well in a
variety of downstream tasks via prompting. However, it remains unclear from
where the model learns the task-specific knowledge, especially in a zero-shot
setup. In this work, we want to find evidence of the model's task-specific
competence from pretraining and are specifically interested in locating a very
small subset of pretraining data that directly supports the model in the task.
We call such a subset supporting data evidence and propose a novel method ORCA
to effectively identify it, by iteratively using gradient information related
to the downstream task. This supporting data evidence offers interesting
insights about the prompted language models: in the tasks of sentiment analysis
and textual entailment, BERT shows a substantial reliance on BookCorpus, the
smaller corpus of BERT's two pretraining corpora, as well as on pretraining
examples that mask out synonyms to the task verbalizers.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、プロンプトを通じて様々な下流タスクにおいて、ますますよく機能している。
しかし、特にゼロショット設定において、モデルがタスク固有の知識をどこで学習するかは、まだ不明である。
本研究では,モデルが事前学習からタスク固有の能力を示す証拠を見つけ,タスクのモデルを直接サポートする,非常に小さな事前学習データのサブセットを見つけることに特に関心を持つ。
本稿では,データエビデンスを支持するサブセットを,下流タスクに関連する勾配情報を反復的に利用して,有効に識別するための新しい手法ORCAを提案する。
このデータエビデンスを支持することは、引き起こされた言語モデルに関する興味深い洞察を与える: 感情分析とテキストの包含のタスクにおいて、BERTは、本コーパス、BERTの2つの事前学習コーパスのより小さなコーパス、およびタスク動詞の同義語をマスクする事前学習例にかなり依存している。
関連論文リスト
- Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - What does BERT learn about prosody? [1.1548853370822343]
モデルが学習する言語の構造情報に韻律が組み込まれているかどうかを考察する。
以上の結果から,韻律的優位性に関する情報は多くの層にまたがるが,中層に主眼を置いていることから,BERTは構文情報や意味情報に大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T10:34:56Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - Evaluating Document Coherence Modelling [37.287725949616934]
英語文侵入検出タスクにおけるプリトレーニング済みLMの広い範囲の性能を検討する。
実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定の大幅な低下を経験することがわかった。
論文 参考訳(メタデータ) (2021-03-18T10:05:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。