論文の概要: Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation
- arxiv url: http://arxiv.org/abs/2307.12973v2
- Date: Mon, 15 Apr 2024 09:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:57:12.084134
- Title: Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation
- Title(参考訳): モデルラベル変動の探索
- Authors: Flor Miriam Plaza-del-Arco, Debora Nozza, Dirk Hovy,
- Abstract要約: LLM(Large Language Models)は、優れたテキスト分類機能を示す。
近年の研究では,データアノテーションにおけるラベルの変動を考慮したことの重要性が強調されている。
我々は,4言語にまたがる5つの主観的タスクに対して,最近の4つの命令調整LDMをアノテータとして評価した。
- 参考スコア(独自算出の注目度): 37.14258903995738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit remarkable text classification capabilities, excelling in zero- and few-shot learning (ZSL and FSL) scenarios. However, since they are trained on different datasets, performance varies widely across tasks between those models. Recent studies emphasize the importance of considering human label variation in data annotation. However, how this human label variation also applies to LLMs remains unexplored. Given this likely model specialization, we ask: Do aggregate LLM labels improve over individual models (as for human annotators)? We evaluate four recent instruction-tuned LLMs as annotators on five subjective tasks across four languages. We use ZSL and FSL setups and label aggregation from human annotation. Aggregations are indeed substantially better than any individual model, benefiting from specialization in diverse tasks or languages. Surprisingly, FSL does not surpass ZSL, as it depends on the quality of the selected examples. However, there seems to be no good information-theoretical strategy to select those. We find that no LLM method rivals even simple supervised models. We also discuss the tradeoffs in accuracy, cost, and moral/ethical considerations between LLM and human annotation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ゼロショット学習(ZSLとFSL)のシナリオに優れ、優れたテキスト分類能力を示す。
しかし、それらは異なるデータセットで訓練されているため、それらのモデル間のタスク間でパフォーマンスは幅広い。
近年の研究では,データアノテーションにおけるラベルの変動を考慮したことの重要性が強調されている。
しかし、この人間のラベルの変化がLLMにもどのように適用されるかは未解明のままである。
集約LDMラベルは個々のモデル(人間のアノテータなど)よりも改善されますか?
我々は,4言語にまたがる5つの主観的タスクに対して,最近の4つの命令調整LDMをアノテータとして評価した。
ZSL と FSL のセットアップと人間のアノテーションからのラベルアグリゲーションを使用します。
集約は個々のモデルよりもはるかに優れており、多様なタスクや言語の専門化の恩恵を受けている。
意外なことに、選択された例の品質に依存するため、FSLはZSLを超えない。
しかし、それらを選択するための優れた情報理論戦略はないようだ。
LLM法は単純な教師付きモデルでさえも競合しないことがわかった。
また、LLMと人間のアノテーションの正確性、コスト、道徳的・倫理的考察のトレードオフについても論じる。
関連論文リスト
- Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。
LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。
本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed
Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language
Models [0.0]
混合コード低リソース言語におけるヘイトスピーチ検出は、大規模言語モデルの使用が有益であることが証明された活発な問題領域である。
そこで本研究では,100件のYouTubeコメントのデータセットを作成した。
すべてのアプローチにおいて、双方向自動回帰変換器(BART)を用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。
論文 参考訳(メタデータ) (2024-03-04T15:27:49Z) - Customizing Language Model Responses with Contrastive In-Context Learning [7.342346948935483]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。
これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。
答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。
この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文 参考訳(メタデータ) (2024-01-30T19:13:12Z) - How Robust are LLMs to In-Context Majority Label Bias? [3.3577727874594654]
本研究では,Large Language Models (LLMs) における文脈内学習のロバスト性について検討する。
また,モデルサイズの影響と,モデルの堅牢性に寄与する指導プロンプトの豊かさを強調した。
論文 参考訳(メタデータ) (2023-12-27T12:20:12Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Large Language Models Vote: Prompting for Rare Disease Identification [3.2063918860622795]
生成型大規模言語モデル(LLM)の性能向上のためのフレキシブルなプロンプト手法である Models-Vote Prompting (MVP) を提案する。
MVPは、多数のLCMに同じタスクを実行させ、結果のアウトプットに対して多数投票を行うことで機能する。
また、MIMIC-IV Data Use Agreement (DUA)に署名した人に利用可能な、FSLのための新しいレアな疾患データセットもリリースしている。
論文 参考訳(メタデータ) (2023-08-24T16:09:13Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。