論文の概要: Donkii: Can Annotation Error Detection Methods Find Errors in
Instruction-Tuning Datasets?
- arxiv url: http://arxiv.org/abs/2309.01669v1
- Date: Mon, 4 Sep 2023 15:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:01:12.440510
- Title: Donkii: Can Annotation Error Detection Methods Find Errors in
Instruction-Tuning Datasets?
- Title(参考訳): Donkii: アノテーションエラー検出メソッドはインストラクションチューニングデータセットのエラーを検出することができるか?
- Authors: Leon Weber-Genzel and Robert Litschko and Ekaterina Artemova and
Barbara Plank
- Abstract要約: 我々は,命令調整データに対する誤り検出(AED)のための第1および第2のベンチマークを示す: Donkii。
そこで本研究では,インストラクションチューニングデータセットの品質がパフォーマンスに与える影響を,最初のケーススタディで検証する。
- 参考スコア(独自算出の注目度): 29.072740239139087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuning has become an integral part of training pipelines for
Large Language Models (LLMs) and has been shown to yield strong performance
gains. In an orthogonal line of research, Annotation Error Detection (AED) has
emerged as a tool for detecting quality issues of gold-standard labels. But so
far, the application of AED methods is limited to discriminative settings. It
is an open question how well AED methods generalize to generative settings
which are becoming widespread via generative LLMs. In this work, we present a
first and new benchmark for AED on instruction-tuning data: Donkii. It
encompasses three instruction-tuning datasets enriched with annotations by
experts and semi-automatic methods. We find that all three datasets contain
clear-cut errors that sometimes directly propagate into instruction-tuned LLMs.
We propose four AED baselines for the generative setting and evaluate them
comprehensively on the newly introduced dataset. Our results demonstrate that
choosing the right AED method and model size is indeed crucial, thereby
deriving practical recommendations. To gain insights, we provide a first
case-study to examine how the quality of the instruction-tuning datasets
influences downstream performance.
- Abstract(参考訳): インストラクションチューニングは、Large Language Models(LLMs)のトレーニングパイプラインの不可欠な部分となり、高いパフォーマンス向上をもたらすことが示されている。
直交的な研究で、金標準ラベルの品質問題を検出するツールとしてアノテーション誤り検出(AED)が登場した。
しかし、これまでのところ、AEDメソッドの応用は差別的な設定に限定されている。
AED法がジェネレーティブLLMを通じて広まりつつあるジェネレーティブ・セッティングにどの程度の精度で一般化するかは、未解決の問題である。
そこで本研究では,命令チューニングデータであるDonkiiについて,AEDの最初の新しいベンチマークを示す。
専門家によるアノテーションとセミオートマチックな手法で強化された3つの命令チューニングデータセットを含んでいる。
これら3つのデータセットにはクリアカットエラーが含まれており、命令調整されたLLMに直接伝播することがある。
そこで本研究では,新たに導入されたデータセットを総合的に評価し,AEDベースラインを4つ提案する。
以上の結果から,適切なAED手法とモデルサイズを選択することが極めて重要であることが示唆された。
インサイトを得るために、インストラクションチューニングデータセットの品質が下流のパフォーマンスにどのように影響するかを調べるための最初のケーススタディを提供する。
関連論文リスト
- ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Described Object Detection: Liberating Object Detection with Flexible
Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。
本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-07-24T14:06:54Z) - ActiveAED: A Human in the Loop Improves Annotation Error Detection [22.61786427296688]
広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいる。
予測ループにおける誤り訂正を人間に繰り返し問い合わせることで、より正確にエラーを検出できるAED手法であるActiveAEDを提案する。
我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。
論文 参考訳(メタデータ) (2023-05-31T17:18:47Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。