Fugu-MT 論文翻訳(概要): Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets?

論文の概要: Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets?

arxiv url: http://arxiv.org/abs/2309.01669v2
Date: Thu, 22 Feb 2024 09:16:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 18:38:49.854255
Title: Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets?
Title（参考訳）: Donkii: アノテーションエラー検出メソッドはインストラクションチューニングデータセットのエラーを検出することができるか?
Authors: Leon Weber-Genzel and Robert Litschko and Ekaterina Artemova and Barbara Plank
Abstract要約: 本稿では,命令チューニングデータ(DONKII)の誤り検出(AED)のための新しいベンチマークを提案する。これら3つのデータセットには明確な誤りが含まれており、命令調整されたLLMに直接伝播することがある。この結果から, 正しいAED手法とモデルサイズを選択することは極めて重要であり, 命令調整データのクリーン化にAED手法を用いる方法の実践的提案が導出されることが示唆された。
参考スコア（独自算出の注目度）: 29.072740239139087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction tuning has become an integral part of training pipelines for Large Language Models (LLMs) and has been shown to yield strong performance gains. In an orthogonal line of research, Annotation Error Detection (AED) has emerged as a tool for detecting quality problems in gold standard labels. So far, however, the application of AED methods has been limited to classification tasks. It is an open question how well AED methods generalize to language generation settings, which are becoming more widespread via LLMs. In this paper, we present a first and novel benchmark for AED on instruction tuning data: DONKII. It comprises three instruction-tuning datasets enriched with error annotations by experts and semi-automatic methods. We also provide a novel taxonomy of error types for instruction-tuning data. We find that all three datasets contain clear errors, which sometimes propagate directly into instruction-tuned LLMs. We propose four AED baselines for the generative setting and evaluate them extensively on the newly introduced dataset. Our results show that the choice of the right AED method and model size is indeed crucial and derive practical recommendations for how to use AED methods to clean instruction-tuning data.
Abstract（参考訳）: インストラクションチューニングは、Large Language Models (LLM) のトレーニングパイプラインの不可欠な部分となり、強力なパフォーマンス向上をもたらすことが示されている。直交的な研究のラインでは、金標準ラベルの品質問題を検出するツールとしてアノテーションエラー検出(AED)が出現している。しかし,これまでのところ,AED法の適用は分類タスクに限られている。 AEDメソッドが言語生成設定にどのように一般化するかは、オープンな疑問である。本稿では,命令チューニングデータであるDONKIIについて,AEDの最初の新しいベンチマークを示す。専門家によるエラーアノテーションに富んだ3つの命令チューニングデータセットと、セミオートマチックなメソッドで構成されている。また,命令チューニングデータに対する誤差型の新しい分類法を提案する。 3つのデータセットには明確なエラーが含まれており、命令調整されたllmに直接伝播することがある。そこで本研究では,新たに導入したデータセットに基づいて,AEDベースラインを4つ提案する。この結果から, 正しいAED手法とモデルサイズを選択することは極めて重要であり, 命令調整データのクリーン化にAED手法を用いる方法の実践的提案が導出されている。

関連論文リスト

ZeroED: Hybrid Zero-shot Error Detection through Large Language Model Reasoning [45.352592886478774]
我々は,新しいゼロショット誤り検出フレームワークZeroEDを提案する。 ZeroEDは、特徴表現、エラーラベリング、データ構築のトレーニング、検出器トレーニングの4つのステップで運用されている。実験の結果、ZeroEDはF1スコアの最大30%改善と最大90%のトークンコスト削減で最先端の手法を大幅に上回ることがわかった。
論文参考訳（メタデータ） (2025-04-06T10:28:41Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data [51.34222224728979]
本稿では,OpenWebText からのランダムテキストの前半を命令として,GPT-3.5-turbo あるいは GPT-4-turbo を用いて応答としてテキストを完成させる手法を提案する。データが"非教育的"であるにも関わらず、このデータに基づいて微調整された事前学習されたLLMが、命令追従能力を得る可能性があることがわかった。
論文参考訳（メタデータ） (2024-08-27T01:21:53Z)
Text3DAug -- Prompted Instance Augmentation for LiDAR Perception [1.1633929083694388]
都市シナリオのLiDARデータは、異種特性や固有のクラス不均衡など、ユニークな課題を提起する。生成モデルを利用した新しいアプローチであるText3DAugを提案する。 Text3DAugはラベル付きデータに依存しておらず、テキストからインスタンスやアノテーションを生成する最初のタイプである。
論文参考訳（メタデータ） (2024-08-26T13:16:03Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文参考訳（メタデータ） (2024-02-09T11:23:14Z)
Described Object Detection: Liberating Object Detection with Flexible Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文参考訳（メタデータ） (2023-07-24T14:06:54Z)
ActiveAED: A Human in the Loop Improves Annotation Error Detection [22.61786427296688]
広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいる。予測ループにおける誤り訂正を人間に繰り返し問い合わせることで、より正確にエラーを検出できるAED手法であるActiveAEDを提案する。我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。
論文参考訳（メタデータ） (2023-05-31T17:18:47Z)
Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文参考訳（メタデータ） (2023-05-23T17:56:26Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。