Fugu-MT 論文翻訳(概要): Implications of Annotation Artifacts in Edge Probing Test Datasets

論文の概要: Implications of Annotation Artifacts in Edge Probing Test Datasets

arxiv url: http://arxiv.org/abs/2310.13856v1
Date: Fri, 20 Oct 2023 23:19:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 04:47:32.081600
Title: Implications of Annotation Artifacts in Edge Probing Test Datasets
Title（参考訳）: エッジ探索テストデータセットにおけるアノテーションアーティファクトの意味
Authors: Sagnik Ray Choudhury and Jushaan Kalra
Abstract要約: 一般的に使用されているエッジ探索テストデータセットには,暗記を含むさまざまなバイアスがあることが示されている。これらのバイアスが除去されると、LLMエンコーダはランダムなバイアスと大きな違いを示す。
参考スコア（独自算出の注目度）: 3.1111196835684685
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Edge probing tests are classification tasks that test for grammatical knowledge encoded in token representations coming from contextual encoders such as large language models (LLMs). Many LLM encoders have shown high performance in EP tests, leading to conjectures about their ability to encode linguistic knowledge. However, a large body of research claims that the tests necessarily do not measure the LLM's capacity to encode knowledge, but rather reflect the classifiers' ability to learn the problem. Much of this criticism stems from the fact that often the classifiers have very similar accuracy when an LLM vs a random encoder is used. Consequently, several modifications to the tests have been suggested, including information theoretic probes. We show that commonly used edge probing test datasets have various biases including memorization. When these biases are removed, the LLM encoders do show a significant difference from the random ones, even with the simple non-information theoretic probes.
Abstract（参考訳）: エッジ探索テスト(edge probing test)は、大言語モデル(llm)のような文脈エンコーダから来るトークン表現にエンコードされた文法知識をテストする分類タスクである。多くのLLMエンコーダはEPテストで高い性能を示しており、言語知識をエンコードする能力について推測されている。しかし、多くの研究が、テストは知識をエンコードするllmの能力を測定するのではなく、問題を学習する分類器の能力を反映していると主張している。この批判の多くは、LLMとランダムエンコーダを使用する場合の分類器の精度がよく似ているという事実に由来する。その結果、情報理論プローブを含むいくつかの変更が提案されている。一般に使用されるエッジ探索テストデータセットには,記憶を含む様々なバイアスがある。これらのバイアスが除去されると、LSMエンコーダは単純な非情報理論プローブであってもランダムなバイアスと大きな違いを示す。

関連論文リスト

Small Encoders Can Rival Large Decoders in Detecting Groundedness [45.13986921082049]
大規模言語モデル(LLM)を外部コンテキストで拡張することで、自然言語処理(NLP)タスクのパフォーマンスが大幅に向上する。本研究は,LLMによるコストのかかる回答生成の前に,与えられたクエリがコンテキストで提供されるドキュメントにグラウンドドされているかを検出することに焦点を当てる。我々は,RoBERTa や NomicBERT などの軽量なタスク固有エンコーダモデルにおいて,キュレートされたデータセットを微調整することで,最先端の LLM に匹敵する精度が得られることを示す。
論文参考訳（メタデータ） (2025-06-26T14:09:41Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 LLMはどの程度の間、正書法情報を学ぶことができるのか? LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-23T18:27:03Z)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文参考訳（メタデータ） (2024-06-06T22:07:50Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
Elephants Never Forget: Testing Language Models for Memorization of Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文参考訳（メタデータ） (2024-03-11T12:07:13Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-06T06:27:33Z)
Can Edge Probing Tasks Reveal Linguistic Knowledge in QA Models? [22.89462198734587]
エッジプローブテストはトークン表現を用いてスパンの文法的性質を予測する。ほとんどのNLPアプリケーションは微調整のLMを使用する。 EPタスクデータセットの批判的分析により、EPモデルが予測を行うために急激な相関に依存する可能性があることが明らかになった。
論文参考訳（メタデータ） (2021-09-15T06:16:12Z)
Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。 MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文参考訳（メタデータ） (2020-03-27T09:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。