論文の概要: LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2404.02261v1
- Date: Tue, 2 Apr 2024 19:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:28:46.477972
- Title: LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages
- Title(参考訳): LLMs in the Loop:低リソース言語におけるアクティブラーニングのための大規模言語モデルアノテーションの活用
- Authors: Nataliia Kholodna, Sahib Julka, Mohammad Khodadadi, Muhammed Nurullah Gumus, Michael Granitzer,
- Abstract要約: 低リソース言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面している。
データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。
GPT-4-Turboを用いた実証的な評価では、データ要求が大幅に削減され、最先端の性能が実証された。
- 参考スコア(独自算出の注目度): 1.149936119867417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource languages face significant barriers in AI development due to limited linguistic resources and expertise for data labeling, rendering them rare and costly. The scarcity of data and the absence of preexisting tools exacerbate these challenges, especially since these languages may not be adequately represented in various NLP datasets. To address this gap, we propose leveraging the potential of LLMs in the active learning loop for data annotation. Initially, we conduct evaluations to assess inter-annotator agreement and consistency, facilitating the selection of a suitable LLM annotator. The chosen annotator is then integrated into a training loop for a classifier using an active learning paradigm, minimizing the amount of queried data required. Empirical evaluations, notably employing GPT-4-Turbo, demonstrate near-state-of-the-art performance with significantly reduced data requirements, as indicated by estimated potential cost savings of at least 42.45 times compared to human annotation. Our proposed solution shows promising potential to substantially reduce both the monetary and computational costs associated with automation in low-resource settings. By bridging the gap between low-resource languages and AI, this approach fosters broader inclusion and shows the potential to enable automation across diverse linguistic landscapes.
- Abstract(参考訳): 低リソースの言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面しており、それらを稀で高価なものにしている。
データの不足と既存のツールの欠如はこれらの課題を悪化させ、特にこれらの言語は様々なNLPデータセットで適切に表現されない可能性がある。
このギャップに対処するために、データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。
当初我々は,アノテータ間の整合性と整合性を評価するために評価を行い,適切なLLMアノテータの選択を容易にする。
選択されたアノテーションは、アクティブラーニングパラダイムを使用して分類器のトレーニングループに統合され、必要なクエリデータの量を最小限にする。
GPT-4-Turboを用いた実証的な評価は、人間のアノテーションと比較して少なくとも42.45倍のコスト削減が予想されるように、データ要求を著しく削減した最先端の性能を示している。
提案手法は,低リソース環境における自動化に伴う金融コストと計算コストを大幅に削減する可能性を示している。
低リソース言語とAIのギャップを埋めることによって、このアプローチはより広範な包摂性を促進し、多様な言語環境における自動化を可能にする可能性を示している。
関連論文リスト
- LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Interactive Multi-fidelity Learning for Cost-effective Adaptation of
Language Model with Sparse Human Supervision [6.151133144093847]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示した。
本稿では,小規模ドメイン固有LMの費用対効果向上を目的とした,インタラクティブ多要素学習(IMFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:39:23Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their
English Dominant Abilities with Linguistically-Diverse Prompts [36.939044809209456]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。