論文の概要: Hands-On Tutorial: Labeling with LLM and Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2411.04637v2
- Date: Mon, 23 Dec 2024 18:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 22:39:34.430561
- Title: Hands-On Tutorial: Labeling with LLM and Human-in-the-Loop
- Title(参考訳): 手書きチュートリアル: LLMとHuman-in-the-Loopによるラベリング
- Authors: Ekaterina Artemova, Akim Tsvigun, Dominik Schlechtweg, Natalia Fedorova, Sergei Tilga, Konstantin Chernyshev, Boris Obmoroshev,
- Abstract要約: このチュートリアルは、研究と業界の両方のバックグラウンドを持つNLP実践者向けに設計されている。
それぞれの戦略の基本を提示し、そのメリットと限界を強調し、実生活におけるケーススタディを詳細に議論する。
チュートリアルにはハンズオンワークショップが含まれており、参加者はハイブリッドアノテーションのセットアップを実装する際にガイドされる。
- 参考スコア(独自算出の注目度): 7.547190767732682
- License:
- Abstract: Training and deploying machine learning models relies on a large amount of human-annotated data. As human labeling becomes increasingly expensive and time-consuming, recent research has developed multiple strategies to speed up annotation and reduce costs and human workload: generating synthetic training data, active learning, and hybrid labeling. This tutorial is oriented toward practical applications: we will present the basics of each strategy, highlight their benefits and limitations, and discuss in detail real-life case studies. Additionally, we will walk through best practices for managing human annotators and controlling the quality of the final dataset. The tutorial includes a hands-on workshop, where attendees will be guided in implementing a hybrid annotation setup. This tutorial is designed for NLP practitioners from both research and industry backgrounds who are involved in or interested in optimizing data labeling projects.
- Abstract(参考訳): 機械学習モデルのトレーニングとデプロイは、大量の人間が注釈付けしたデータに依存している。
人間のラベリングはますます高価で時間を要するようになり、最近の研究はアノテーションをスピードアップし、コストと人的作業量を削減するための複数の戦略、すなわち合成トレーニングデータの生成、アクティブラーニング、ハイブリッドラベリングを開発した。
本チュートリアルは,各戦略の基本を提示し,そのメリットと限界を強調し,実生活におけるケーススタディを詳細に議論する。
さらに、人間のアノテータを管理し、最終的なデータセットの品質を制御するためのベストプラクティスについても検討する。
チュートリアルにはハンズオンワークショップが含まれており、参加者はハイブリッドアノテーションのセットアップを実装する際にガイドされる。
このチュートリアルは、データラベリングプロジェクトの最適化に関わったり、興味を持った研究と産業の両方のバックグラウンドを持つNLP実践者向けに設計されている。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - A Survey on Deep Active Learning: Recent Advances and New Frontiers [27.07154361976248]
この研究は、ディープラーニングに基づくアクティブラーニング(DAL)の難しさを克服する上で、研究者にとって有用かつ迅速なガイドとなることを目的としている。
この手法は適用可能性の広さから人気が高まりつつあるが、特にディープラーニングに基づくアクティブラーニング(DAL)に関する調査論文は乏しいままである。
論文 参考訳(メタデータ) (2024-05-01T05:54:33Z) - Cheap Learning: Maximising Performance of Language Models for Social
Data Science Using Minimal Data [1.8692054990918079]
近年発展してきた3つの安価な技術について概観する。
後者では、大規模言語モデルのゼロショットプロンプトの特定の事例について概観する。
我々は,すべての技術に対して優れた性能を示し,特に大規模言語モデルのプロンプトが,非常に低コストで高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-22T19:00:11Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Tutorial on Deep Learning for Human Activity Recognition [70.94062293989832]
このチュートリアルは2021年のACM International Symposium on Wearable Computers (ISWC'21)で初めて開催された。
これは、人間のアクティビティを深く学習する上で、データパイプラインにおける最も重要なステップの、ハンズオンでインタラクティブなウォークスルーを提供する。
論文 参考訳(メタデータ) (2021-10-13T12:01:02Z) - Motivating Learners in Multi-Orchestrator Mobile Edge Learning: A
Stackelberg Game Approach [54.28419430315478]
Mobile Edge Learningは、異種エッジデバイス上で機械学習モデルの分散トレーニングを可能にする。
MELでは、十分なトレーニングデータやコンピューティングリソースを入手することなく、トレーニング性能が低下する。
そこで我々は2ラウンドのStackelbergゲームとしてオーケストレータとラーナーの相互作用を定式化するインセンティブ機構を提案する。
論文 参考訳(メタデータ) (2021-09-25T17:27:48Z) - Towards Zero-Label Language Learning [20.28186484098947]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。
トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。
GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文 参考訳(メタデータ) (2021-09-19T19:00:07Z) - Self-supervised on Graphs: Contrastive, Generative,or Predictive [25.679620842010422]
SSL(Self-supervised Learning)は、よく設計されたプリテキストタスクを通じて有益な知識を抽出するための新しいパラダイムとして登場しています。
既存のグラフSSLメソッドは、コントラスト、生成、予測の3つのカテゴリに分けられる。
また、一般的なデータセット、評価メトリクス、下流タスク、さまざまなアルゴリズムのオープンソース実装をまとめています。
論文 参考訳(メタデータ) (2021-05-16T03:30:03Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。