Fugu-MT 論文翻訳(概要): Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets?

論文の概要: Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets?

arxiv url: http://arxiv.org/abs/2309.01669v1
Date: Mon, 4 Sep 2023 15:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 18:01:12.440510
Title: Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets?
Title（参考訳）: Donkii: アノテーションエラー検出メソッドはインストラクションチューニングデータセットのエラーを検出することができるか?
Authors: Leon Weber-Genzel and Robert Litschko and Ekaterina Artemova and Barbara Plank
Abstract要約: 我々は,命令調整データに対する誤り検出(AED)のための第1および第2のベンチマークを示す: Donkii。そこで本研究では,インストラクションチューニングデータセットの品質がパフォーマンスに与える影響を,最初のケーススタディで検証する。
参考スコア（独自算出の注目度）: 29.072740239139087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-tuning has become an integral part of training pipelines for Large Language Models (LLMs) and has been shown to yield strong performance gains. In an orthogonal line of research, Annotation Error Detection (AED) has emerged as a tool for detecting quality issues of gold-standard labels. But so far, the application of AED methods is limited to discriminative settings. It is an open question how well AED methods generalize to generative settings which are becoming widespread via generative LLMs. In this work, we present a first and new benchmark for AED on instruction-tuning data: Donkii. It encompasses three instruction-tuning datasets enriched with annotations by experts and semi-automatic methods. We find that all three datasets contain clear-cut errors that sometimes directly propagate into instruction-tuned LLMs. We propose four AED baselines for the generative setting and evaluate them comprehensively on the newly introduced dataset. Our results demonstrate that choosing the right AED method and model size is indeed crucial, thereby deriving practical recommendations. To gain insights, we provide a first case-study to examine how the quality of the instruction-tuning datasets influences downstream performance.
Abstract（参考訳）: インストラクションチューニングは、Large Language Models(LLMs)のトレーニングパイプラインの不可欠な部分となり、高いパフォーマンス向上をもたらすことが示されている。直交的な研究で、金標準ラベルの品質問題を検出するツールとしてアノテーション誤り検出(AED)が登場した。しかし、これまでのところ、AEDメソッドの応用は差別的な設定に限定されている。 AED法がジェネレーティブLLMを通じて広まりつつあるジェネレーティブ・セッティングにどの程度の精度で一般化するかは、未解決の問題である。そこで本研究では,命令チューニングデータであるDonkiiについて,AEDの最初の新しいベンチマークを示す。専門家によるアノテーションとセミオートマチックな手法で強化された3つの命令チューニングデータセットを含んでいる。これら3つのデータセットにはクリアカットエラーが含まれており、命令調整されたLLMに直接伝播することがある。そこで本研究では,新たに導入されたデータセットを総合的に評価し,AEDベースラインを4つ提案する。以上の結果から,適切なAED手法とモデルサイズを選択することが極めて重要であることが示唆された。インサイトを得るために、インストラクションチューニングデータセットの品質が下流のパフォーマンスにどのように影響するかを調べるための最初のケーススタディを提供する。

関連論文リスト

ZeroED: Hybrid Zero-shot Error Detection through Large Language Model Reasoning [45.352592886478774]
我々は,新しいゼロショット誤り検出フレームワークZeroEDを提案する。 ZeroEDは、特徴表現、エラーラベリング、データ構築のトレーニング、検出器トレーニングの4つのステップで運用されている。実験の結果、ZeroEDはF1スコアの最大30%改善と最大90%のトークンコスト削減で最先端の手法を大幅に上回ることがわかった。
論文参考訳（メタデータ） (2025-04-06T10:28:41Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data [51.34222224728979]
本稿では,OpenWebText からのランダムテキストの前半を命令として,GPT-3.5-turbo あるいは GPT-4-turbo を用いて応答としてテキストを完成させる手法を提案する。データが"非教育的"であるにも関わらず、このデータに基づいて微調整された事前学習されたLLMが、命令追従能力を得る可能性があることがわかった。
論文参考訳（メタデータ） (2024-08-27T01:21:53Z)
Text3DAug -- Prompted Instance Augmentation for LiDAR Perception [1.1633929083694388]
都市シナリオのLiDARデータは、異種特性や固有のクラス不均衡など、ユニークな課題を提起する。生成モデルを利用した新しいアプローチであるText3DAugを提案する。 Text3DAugはラベル付きデータに依存しておらず、テキストからインスタンスやアノテーションを生成する最初のタイプである。
論文参考訳（メタデータ） (2024-08-26T13:16:03Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文参考訳（メタデータ） (2024-02-09T11:23:14Z)
Described Object Detection: Liberating Object Detection with Flexible Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文参考訳（メタデータ） (2023-07-24T14:06:54Z)
ActiveAED: A Human in the Loop Improves Annotation Error Detection [22.61786427296688]
広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいる。予測ループにおける誤り訂正を人間に繰り返し問い合わせることで、より正確にエラーを検出できるAED手法であるActiveAEDを提案する。我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。
論文参考訳（メタデータ） (2023-05-31T17:18:47Z)
Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文参考訳（メタデータ） (2023-05-23T17:56:26Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。