論文の概要: Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text
- arxiv url: http://arxiv.org/abs/2409.02078v1
- Date: Tue, 3 Sep 2024 17:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 00:04:31.256466
- Title: Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text
- Title(参考訳): 政治議論: 政治テキストのための効率的なゼロショットとフイショット分類器
- Authors: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng,
- Abstract要約: 大規模言語モデルは、ゼロショット学習(ゼロショット学習)として知られる、教師付きトレーニングなしで文書に注釈を付けることができる。
本稿では、ゼロショットおよび少数ショットの政治文書分類のための政治DeBATE言語モデルを紹介する。
800以上の分類タスクに高度に正確なラベルを持つ20,000以上の政治文書からなるコーパスです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.
- Abstract(参考訳): 社会科学者は、教師付きトレーニングなしで文書に注釈を付ける能力、ゼロショット学習(zero-shot learning)と呼ばれる能力により、すぐに大きな言語モデルを採用した。
しかしながら、それらの計算要求、コスト、そしてしばしばプロプライエタリな性質のため、これらのモデルは複製やオープンサイエンス標準に反することが多い。
本稿では、ゼロショットおよび少数ショットの政治文書分類のための政治DeBATE(DeBERTa Algorithm for Textual Entailment)言語モデルを提案する。
これらのモデルは、ゼロと数ショットの分類における最先端の大規模言語モデルよりも優れている、あるいは優れているだけでなく、桁違いに効率的で完全にオープンソースである。
10-25文書の単純なランダムなサンプルでモデルをトレーニングすることで、数百から数千のドキュメントで訓練された教師付き分類器や、複雑なエンジニアリングプロンプトを備えた最先端の生成モデルより優れている。
さらに、800以上の分類タスクに高い精度のラベルを持つ20万以上の政治文書からなるコーパスである、これらのモデルをトレーニングするために使用されるPolNLIデータセットもリリースしています。
関連論文リスト
- Small Language Models are Good Too: An Empirical Study of Zero-Shot Classification [4.4467858321751015]
異なるアーキテクチャとスコアリング関数を用いて、77Mから40Bパラメータの言語モデルをベンチマークする。
この結果から、小さなモデルはテキストを効果的に分類し、より大きなテキストに匹敵するか、上回っていることが明らかとなった。
この研究は、大きめが常に良いとは限らないという考えを強調し、リソース効率の良い小さなモデルが特定のデータ分類の課題に対して実行可能なソリューションを提供するかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-04-17T07:10:28Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use [14.2527771630478]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。
当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。
トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-05T03:34:11Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Training Keyword Spotters with Limited and Synthesized Speech Data [14.476868092174636]
合成音声のみを用いて訓練された10のキーワードを検出するモデルは、500以上の実例で訓練されたモデルと等価であることを示す。
また、同じ精度に達するためには、スピーチ埋め込みのないモデルを4000以上の実例でトレーニングする必要があることも示しています。
論文 参考訳(メタデータ) (2020-01-31T07:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。