論文の概要: Data Checklist: On Unit-Testing Datasets with Usable Information
- arxiv url: http://arxiv.org/abs/2408.02919v1
- Date: Tue, 6 Aug 2024 03:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:09:28.196902
- Title: Data Checklist: On Unit-Testing Datasets with Usable Information
- Title(参考訳): データチェックリスト: 利用可能な情報を備えた単体テストデータセット
- Authors: Heidi C. Zhang, Shabnam Behzad, Kawin Ethayarajh, Dan Jurafsky,
- Abstract要約: 本稿では,データセット評価のためのV情報文献に基づく分類法を提案する。
我々は、SNLIなどのデータセットで既知のアーティファクトを復元するために、データチェックリストとしてそのようなユニットテストのコレクションを使用します。
データチェックリストはさらに、リセプションアライメントの有効性とデータ効率を改善するために、新しい種類のデータフィルタリングを可能にする。
- 参考スコア(独自算出の注目度): 38.71790944441895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model checklists (Ribeiro et al., 2020) have emerged as a useful tool for understanding the behavior of LLMs, analogous to unit-testing in software engineering. However, despite datasets being a key determinant of model behavior, evaluating datasets, e.g., for the existence of annotation artifacts, is largely done ad hoc, once a problem in model behavior has already been found downstream. In this work, we take a more principled approach to unit-testing datasets by proposing a taxonomy based on the V-information literature. We call a collection of such unit tests a data checklist. Using a checklist, not only are we able to recover known artifacts in well-known datasets such as SNLI, but we also discover previously unknown artifacts in preference datasets for LLM alignment. Data checklists further enable a new kind of data filtering, which we use to improve the efficacy and data efficiency of preference alignment.
- Abstract(参考訳): モデルチェックリスト(Ribeiro et al , 2020)は、ソフトウェア工学における単体テストに類似したLCMの振る舞いを理解するための有用なツールとして登場した。
しかし、データセットがモデル行動の重要な決定要因であるにもかかわらず、例えば、アノテーションアーティファクトの存在についてデータセットを評価することは、主にアドホックである。
本研究は,V-情報文献に基づく分類法を提案することにより,より原理化された手法を単位検定データセットに適用する。
このようなユニットテストのコレクションをデータチェックリストと呼びます。
チェックリストを使用することで、SNLIのようなよく知られたデータセットで既知のアーティファクトを復元できるだけでなく、LLMアライメントのための選好データセットで、これまで知られていなかったアーティファクトも発見できる。
データチェックリストはさらに、リセプションアライメントの有効性とデータ効率を改善するために、新しい種類のデータフィルタリングを可能にする。
関連論文リスト
- Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - No More Distractions: an Adaptive Up-Sampling Algorithm to Reduce Data
Artifacts [3.9777369380822956]
SNLIデータを解析し,その相関関係を可視化した。
データアーチファクトの修正に適応的なアップサンプリングアルゴリズムを提案する。
SNLIデータにおけるデータアーチファクトの修正にアルゴリズムを適用した実験を行った。
論文 参考訳(メタデータ) (2024-01-25T02:54:53Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Unsupposable Test-data Generation for Machine-learned Software [0.0]
開発者やテスタをモデル化する上で,"Unsupposable test-data generation"(UTG)が提案されている。
提案されたUTGは、MNISTデータセットとHouse Sales Priceデータセットに適用された。
論文 参考訳(メタデータ) (2020-05-21T03:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。