論文の概要: Factual Probing Is [MASK]: Learning vs. Learning to Recall
- arxiv url: http://arxiv.org/abs/2104.05240v1
- Date: Mon, 12 Apr 2021 07:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:21:30.322638
- Title: Factual Probing Is [MASK]: Learning vs. Learning to Recall
- Title(参考訳): Factual Probingは, [MASK]: 学習対リコール学習
- Authors: Zexuan Zhong, Dan Friedman, Danqi Chen
- Abstract要約: ペトロニなど。
予め訓練された言語モデルから世界事実をクローゼスタイルのプロンプトとして表現することで取得可能であることを実証した。
これらの事実探索技術をよりよく理解するための2つの補完的な貢献をしている。
やや意外なことに、これらの方法が使用するトレーニングデータには、基礎となる事実分布の一定の正規性が含まれている。
- 参考スコア(独自算出の注目度): 8.668111159444273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Petroni et al. (2019) demonstrated that it is possible to retrieve world
facts from a pre-trained language model by expressing them as cloze-style
prompts and interpret the model's prediction accuracy as a lower bound on the
amount of factual information it encodes. Subsequent work has attempted to
tighten the estimate by searching for better prompts, using a disjoint set of
facts as training data. In this work, we make two complementary contributions
to better understand these factual probing techniques. First, we propose
OptiPrompt, a novel and efficient method which directly optimizes in continuous
embedding space. We find this simple method is able to predict an additional
6.4% of facts in the LAMA benchmark. Second, we raise a more important
question: Can we really interpret these probing results as a lower bound? Is it
possible that these prompt-search methods learn from the training data too? We
find, somewhat surprisingly, that the training data used by these methods
contains certain regularities of the underlying fact distribution, and all the
existing prompt methods, including ours, are able to exploit them for better
fact prediction. We conduct a set of control experiments to disentangle
"learning" from "learning to recall", providing a more detailed picture of what
different prompts can reveal about pre-trained language models.
- Abstract(参考訳): ペトロニなど。
(2019)は,事前学習した言語モデルから,それらをクローゼスタイルのプロンプトとして表現し,それを符号化した事実情報量に基づく下限として予測精度を解釈することにより,世界事実を検索できることを実証した。
その後の研究は、不連続な事実の集合をトレーニングデータとして使用して、より良いプロンプトを求めることによって見積もりを締め付けようとしている。
本研究では,これらの事実探索手法をよりよく理解するための2つの補完的貢献を行う。
まず,連続的な埋め込み空間を直接最適化する新しい,効率的な手法であるOptiPromptを提案する。
この単純な方法は、lamaベンチマークでさらに6.4%の事実を予測できることがわかった。
第2に、より重要な疑問を提起する: これらの調査結果は、本当に低い境界として解釈できるのか?
これらのプロンプト検索手法がトレーニングデータから学ぶことは可能でしょうか?
驚くべきことに、これらの手法が使用するトレーニングデータには、基礎となる事実分布の一定の規則性が含まれており、我々のものを含む既存のプロンプトメソッドは、より優れた事実予測のためにそれらを活用できる。
学習からリコールへの"学習"を分離する一連の制御実験を実施し,事前学習された言語モデルに対して,さまざまなプロンプトがどのようなことを顕在化できるかをより詳細に示す。
関連論文リスト
- Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - KADEL: Knowledge-Aware Denoising Learning for Commit Message Generation [43.8807366757381]
そこで我々は,KADELという新しい知識認識型認知学習手法を提案する。
良い実践的なコミットがデータセットのごく一部を占めることを考えると、残りのトレーニングサンプルと良い実践的なコミットを一致させます。
本手法は,従来の手法と比較して総合的な最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T14:07:48Z) - Can Diffusion Model Achieve Better Performance in Text Generation?
Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。
トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。
本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文 参考訳(メタデータ) (2023-05-08T05:32:22Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Learning To Retrieve Prompts for In-Context Learning [33.176481861880724]
本稿では,注釈付きデータとLMを用いたテキスト内学習のためのプロンプトを効率よく検索する手法を提案する。
言語発話を意味表現にマッピングする3つのシーケンス・ツー・シーケンスタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-16T05:17:56Z) - An Empirical Study on Few-shot Knowledge Probing for Pretrained Language
Models [54.74525882974022]
1ホップと2ホップの双方において、いくつかの例は、探索性能を強く向上させることができることを示す。
特に、モデル内のバイアスベクトルを微調整する単純なyet効果のアプローチが、既存のプロンプトエンジニアリング手法より優れていることが分かる。
論文 参考訳(メタデータ) (2021-09-06T23:29:36Z) - Pretext-Contrastive Learning: Toward Good Practices in Self-supervised
Video Representation Leaning [43.002621928500425]
そこで本稿では,プレテキストタスクとコントラスト学習の両方を強化するための共同最適化フレームワークを提案する。
PCLを標準的なトレーニング戦略として扱い、それを自己教師付きビデオ特徴学習の他の多くの分野に適用することは便利である。
論文 参考訳(メタデータ) (2020-10-29T10:20:35Z) - Leveraging Declarative Knowledge in Text and First-Order Logic for
Fine-Grained Propaganda Detection [139.3415751957195]
本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。
本稿では,詳細なプロパガンダ手法の宣言的知識を注入する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T13:46:15Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。