論文の概要: Implications of Annotation Artifacts in Edge Probing Test Datasets
- arxiv url: http://arxiv.org/abs/2310.13856v1
- Date: Fri, 20 Oct 2023 23:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:47:32.081600
- Title: Implications of Annotation Artifacts in Edge Probing Test Datasets
- Title(参考訳): エッジ探索テストデータセットにおけるアノテーションアーティファクトの意味
- Authors: Sagnik Ray Choudhury and Jushaan Kalra
- Abstract要約: 一般的に使用されているエッジ探索テストデータセットには,暗記を含むさまざまなバイアスがあることが示されている。
これらのバイアスが除去されると、LLMエンコーダはランダムなバイアスと大きな違いを示す。
- 参考スコア(独自算出の注目度): 3.1111196835684685
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Edge probing tests are classification tasks that test for grammatical
knowledge encoded in token representations coming from contextual encoders such
as large language models (LLMs). Many LLM encoders have shown high performance
in EP tests, leading to conjectures about their ability to encode linguistic
knowledge. However, a large body of research claims that the tests necessarily
do not measure the LLM's capacity to encode knowledge, but rather reflect the
classifiers' ability to learn the problem. Much of this criticism stems from
the fact that often the classifiers have very similar accuracy when an LLM vs a
random encoder is used. Consequently, several modifications to the tests have
been suggested, including information theoretic probes. We show that commonly
used edge probing test datasets have various biases including memorization.
When these biases are removed, the LLM encoders do show a significant
difference from the random ones, even with the simple non-information theoretic
probes.
- Abstract(参考訳): エッジ探索テスト(edge probing test)は、大言語モデル(llm)のような文脈エンコーダから来るトークン表現にエンコードされた文法知識をテストする分類タスクである。
多くのLLMエンコーダはEPテストで高い性能を示しており、言語知識をエンコードする能力について推測されている。
しかし、多くの研究が、テストは知識をエンコードするllmの能力を測定するのではなく、問題を学習する分類器の能力を反映していると主張している。
この批判の多くは、LLMとランダムエンコーダを使用する場合の分類器の精度がよく似ているという事実に由来する。
その結果、情報理論プローブを含むいくつかの変更が提案されている。
一般に使用されるエッジ探索テストデータセットには,記憶を含む様々なバイアスがある。
これらのバイアスが除去されると、LSMエンコーダは単純な非情報理論プローブであってもランダムなバイアスと大きな違いを示す。
関連論文リスト
- Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。
探索データセットの構築にはChatGPTの強力な生成能力を活用する。
矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文 参考訳(メタデータ) (2024-02-25T11:15:42Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文 参考訳(メタデータ) (2023-05-15T05:42:34Z) - Can Edge Probing Tasks Reveal Linguistic Knowledge in QA Models? [22.89462198734587]
エッジプローブテストはトークン表現を用いてスパンの文法的性質を予測する。
ほとんどのNLPアプリケーションは微調整のLMを使用する。
EPタスクデータセットの批判的分析により、EPモデルが予測を行うために急激な相関に依存する可能性があることが明らかになった。
論文 参考訳(メタデータ) (2021-09-15T06:16:12Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。
MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。
これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文 参考訳(メタデータ) (2020-03-27T09:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。