論文の概要: Implications of Annotation Artifacts in Edge Probing Test Datasets
- arxiv url: http://arxiv.org/abs/2310.13856v1
- Date: Fri, 20 Oct 2023 23:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:47:32.081600
- Title: Implications of Annotation Artifacts in Edge Probing Test Datasets
- Title(参考訳): エッジ探索テストデータセットにおけるアノテーションアーティファクトの意味
- Authors: Sagnik Ray Choudhury and Jushaan Kalra
- Abstract要約: 一般的に使用されているエッジ探索テストデータセットには,暗記を含むさまざまなバイアスがあることが示されている。
これらのバイアスが除去されると、LLMエンコーダはランダムなバイアスと大きな違いを示す。
- 参考スコア(独自算出の注目度): 3.1111196835684685
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Edge probing tests are classification tasks that test for grammatical
knowledge encoded in token representations coming from contextual encoders such
as large language models (LLMs). Many LLM encoders have shown high performance
in EP tests, leading to conjectures about their ability to encode linguistic
knowledge. However, a large body of research claims that the tests necessarily
do not measure the LLM's capacity to encode knowledge, but rather reflect the
classifiers' ability to learn the problem. Much of this criticism stems from
the fact that often the classifiers have very similar accuracy when an LLM vs a
random encoder is used. Consequently, several modifications to the tests have
been suggested, including information theoretic probes. We show that commonly
used edge probing test datasets have various biases including memorization.
When these biases are removed, the LLM encoders do show a significant
difference from the random ones, even with the simple non-information theoretic
probes.
- Abstract(参考訳): エッジ探索テスト(edge probing test)は、大言語モデル(llm)のような文脈エンコーダから来るトークン表現にエンコードされた文法知識をテストする分類タスクである。
多くのLLMエンコーダはEPテストで高い性能を示しており、言語知識をエンコードする能力について推測されている。
しかし、多くの研究が、テストは知識をエンコードするllmの能力を測定するのではなく、問題を学習する分類器の能力を反映していると主張している。
この批判の多くは、LLMとランダムエンコーダを使用する場合の分類器の精度がよく似ているという事実に由来する。
その結果、情報理論プローブを含むいくつかの変更が提案されている。
一般に使用されるエッジ探索テストデータセットには,記憶を含む様々なバイアスがある。
これらのバイアスが除去されると、LSMエンコーダは単純な非情報理論プローブであってもランダムなバイアスと大きな違いを示す。
関連論文リスト
- CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - Can Edge Probing Tasks Reveal Linguistic Knowledge in QA Models? [22.89462198734587]
エッジプローブテストはトークン表現を用いてスパンの文法的性質を予測する。
ほとんどのNLPアプリケーションは微調整のLMを使用する。
EPタスクデータセットの批判的分析により、EPモデルが予測を行うために急激な相関に依存する可能性があることが明らかになった。
論文 参考訳(メタデータ) (2021-09-15T06:16:12Z) - Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。
MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。
これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文 参考訳(メタデータ) (2020-03-27T09:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。