Fugu-MT 論文翻訳(概要): Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation

論文の概要: Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation

arxiv url: http://arxiv.org/abs/2406.12114v1
Date: Mon, 17 Jun 2024 21:45:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 23:37:50.978288
Title: Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation
Title（参考訳）: LLM駆動型アクティブラーニングと人間アノテーションによるテキスト分類の強化
Authors: Hamidreza Rouzegar, Masoud Makrehchi,
Abstract要約: 本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
参考スコア（独自算出の注目度）: 2.0411082897313984
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the context of text classification, the financial burden of annotation exercises for creating training data is a critical issue. Active learning techniques, particularly those rooted in uncertainty sampling, offer a cost-effective solution by pinpointing the most instructive samples for manual annotation. Similarly, Large Language Models (LLMs) such as GPT-3.5 provide an alternative for automated annotation but come with concerns regarding their reliability. This study introduces a novel methodology that integrates human annotators and LLMs within an Active Learning framework. We conducted evaluations on three public datasets. IMDB for sentiment analysis, a Fake News dataset for authenticity discernment, and a Movie Genres dataset for multi-label classification.The proposed framework integrates human annotation with the output of LLMs, depending on the model uncertainty levels. This strategy achieves an optimal balance between cost efficiency and classification performance. The empirical results show a substantial decrease in the costs associated with data annotation while either maintaining or improving model accuracy.
Abstract（参考訳）: テキスト分類の文脈では、トレーニングデータを作成するためのアノテーション演習の金銭的負担が重要な問題である。アクティブラーニング技術、特に不確実性サンプリングに根ざした手法は、手動アノテーションの最も指導的なサンプルをピンポイントすることで、コスト効率の良いソリューションを提供する。同様に、GPT-3.5のようなLarge Language Models (LLM) は自動アノテーションの代替を提供するが、その信頼性に関する懸念がある。本研究では,人間のアノテータとLLMをアクティブラーニングフレームワークに統合する新しい手法を提案する。 3つの公開データセットの評価を行った。 IMDB, 信頼度識別のためのFake Newsデータセット, マルチラベル分類のためのMovie Genresデータセット, 提案フレームワークは, モデル不確実性レベルに応じて, 人間のアノテーションとLCMの出力を統合する。この戦略は、コスト効率と分類性能の最適バランスを達成する。実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。

関連論文リスト

To Label or Not to Label: PALM -- A Predictive Model for Evaluating Sample Efficiency in Active Learning Models [2.2667044928324747]
アクティブラーニング(AL)は、ラベル付けのための最も有益なサンプルを選択することで、アノテーションのコストを削減しようとしている。最終精度のみに焦点をあてた従来の評価手法は、学習過程の完全なダイナミクスを捉えることができない。本研究では,4つのキーパラメータからAL軌道を特徴付ける統一的・解釈可能な数学的モデルであるPALMを提案する。
論文参考訳（メタデータ） (2025-07-21T08:37:44Z)
LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning [58.98865450345401]
本稿では,マイアーのマルチメディア学習認知理論に基礎を置く自動計量であるLecEvalを紹介する。 LecEvalは、コンテンツ関連(CR)、表現的明瞭度(EC)、論理構造(LS)、聴取エンゲージメント(AE)の4つのルーリックを用いて効果を評価する私たちは、50以上のオンラインコースビデオから2000以上のスライドからなる大規模なデータセットをキュレートします。
論文参考訳（メタデータ） (2025-05-04T12:06:47Z)
Applying LLMs to Active Learning: Towards Cost-Efficient Cross-Task Text Classification without Manually Labeled Data [0.0]
大規模言語モデル(LLM)をアクティブな学習フレームワークに統合する手法を提案する。提案手法は,手動でラベル付けしたデータを必要としないクロスタスクテキスト分類性能を実現する。
論文参考訳（メタデータ） (2025-02-24T06:43:19Z)
Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
PoliPrompt: A High-Performance Cost-Effective LLM-Based Text Classification Framework for Political Science [1.6967824074619953]
本稿では,大規模言語モデルを活用して分類精度を向上させる3段階のインコンテキスト学習手法を提案する。我々は,BBCの報道,カバノー最高裁判所の確認,2018年の選挙キャンペーン広告のデータセットを用いて,我々のアプローチを検証する。その結果, 管理可能な経済コストによる分類F1スコア(ゼロショット分類では+0.36)の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-09-02T21:05:31Z)
Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文参考訳（メタデータ） (2024-06-17T07:25:09Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation [1.6893691730575022]
本研究では,Large Language Models(LLMs)の能力と人間の努力を相乗化する,新しいハイブリッドアノテーション手法を提案する。ラベルミキシング戦略を用いることで、LCMベースのアノテーションで遭遇するクラス不均衡の問題に対処する。本研究は,LLMを活用してデータセットの品質を向上する可能性を照らし,クラス不均衡を緩和する新しい手法を導入し,高性能なNERを低コストで実現可能であることを示す。
論文参考訳（メタデータ） (2024-03-30T12:13:57Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文参考訳（メタデータ） (2023-01-09T10:33:14Z)
Assisted Text Annotation Using Active Learning to Achieve High Quality with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文参考訳（メタデータ） (2021-12-15T13:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。