論文の概要: Donkii: Can Annotation Error Detection Methods Find Errors in
Instruction-Tuning Datasets?
- arxiv url: http://arxiv.org/abs/2309.01669v2
- Date: Thu, 22 Feb 2024 09:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:38:49.854255
- Title: Donkii: Can Annotation Error Detection Methods Find Errors in
Instruction-Tuning Datasets?
- Title(参考訳): Donkii: アノテーションエラー検出メソッドはインストラクションチューニングデータセットのエラーを検出することができるか?
- Authors: Leon Weber-Genzel and Robert Litschko and Ekaterina Artemova and
Barbara Plank
- Abstract要約: 本稿では,命令チューニングデータ(DONKII)の誤り検出(AED)のための新しいベンチマークを提案する。
これら3つのデータセットには明確な誤りが含まれており、命令調整されたLLMに直接伝播することがある。
この結果から, 正しいAED手法とモデルサイズを選択することは極めて重要であり, 命令調整データのクリーン化にAED手法を用いる方法の実践的提案が導出されることが示唆された。
- 参考スコア(独自算出の注目度): 29.072740239139087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has become an integral part of training pipelines for
Large Language Models (LLMs) and has been shown to yield strong performance
gains. In an orthogonal line of research, Annotation Error Detection (AED) has
emerged as a tool for detecting quality problems in gold standard labels. So
far, however, the application of AED methods has been limited to classification
tasks. It is an open question how well AED methods generalize to language
generation settings, which are becoming more widespread via LLMs. In this
paper, we present a first and novel benchmark for AED on instruction tuning
data: DONKII. It comprises three instruction-tuning datasets enriched with
error annotations by experts and semi-automatic methods. We also provide a
novel taxonomy of error types for instruction-tuning data. We find that all
three datasets contain clear errors, which sometimes propagate directly into
instruction-tuned LLMs. We propose four AED baselines for the generative
setting and evaluate them extensively on the newly introduced dataset. Our
results show that the choice of the right AED method and model size is indeed
crucial and derive practical recommendations for how to use AED methods to
clean instruction-tuning data.
- Abstract(参考訳): インストラクションチューニングは、Large Language Models (LLM) のトレーニングパイプラインの不可欠な部分となり、強力なパフォーマンス向上をもたらすことが示されている。
直交的な研究のラインでは、金標準ラベルの品質問題を検出するツールとしてアノテーションエラー検出(AED)が出現している。
しかし,これまでのところ,AED法の適用は分類タスクに限られている。
AEDメソッドが言語生成設定にどのように一般化するかは、オープンな疑問である。
本稿では,命令チューニングデータであるDONKIIについて,AEDの最初の新しいベンチマークを示す。
専門家によるエラーアノテーションに富んだ3つの命令チューニングデータセットと、セミオートマチックなメソッドで構成されている。
また,命令チューニングデータに対する誤差型の新しい分類法を提案する。
3つのデータセットには明確なエラーが含まれており、命令調整されたllmに直接伝播することがある。
そこで本研究では,新たに導入したデータセットに基づいて,AEDベースラインを4つ提案する。
この結果から, 正しいAED手法とモデルサイズを選択することは極めて重要であり, 命令調整データのクリーン化にAED手法を用いる方法の実践的提案が導出されている。
関連論文リスト
- ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Described Object Detection: Liberating Object Detection with Flexible
Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。
本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-07-24T14:06:54Z) - ActiveAED: A Human in the Loop Improves Annotation Error Detection [22.61786427296688]
広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいる。
予測ループにおける誤り訂正を人間に繰り返し問い合わせることで、より正確にエラーを検出できるAED手法であるActiveAEDを提案する。
我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。
論文 参考訳(メタデータ) (2023-05-31T17:18:47Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。