論文の概要: Multiclass Classification of Policy Documents with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.08167v1
- Date: Thu, 12 Oct 2023 09:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:01:40.490535
- Title: Multiclass Classification of Policy Documents with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた政策文書の多クラス分類
- Authors: Erkan Gunes, Christoffer Koch Florczak
- Abstract要約: 我々は,OpenAI の GPT 3.5 および GPT 4 モデルを用いて,議会法案と議会公聴会を,比較アジェンダプロジェクトの21の政策課題に分類する。
本稿では,シナリオとGPTモデルに基づいて,3つのユースケースシナリオを提案し,全体の精度を%58~83の範囲で推定する。
以上の結果から,人的介入が最小限に抑えられたGPTへの完全依存の欠如,人的努力による精度の向上,人的要求の最も高いユースケースにおける驚くほど高い精度の実現が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classifying policy documents into policy issue topics has been a long-time
effort in political science and communication disciplines. Efforts to automate
text classification processes for social science research purposes have so far
achieved remarkable results, but there is still a large room for progress. In
this work, we test the prediction performance of an alternative strategy, which
requires human involvement much less than full manual coding. We use the GPT
3.5 and GPT 4 models of the OpenAI, which are pre-trained instruction-tuned
Large Language Models (LLM), to classify congressional bills and congressional
hearings into Comparative Agendas Project's 21 major policy issue topics. We
propose three use-case scenarios and estimate overall accuracies ranging from
%58-83 depending on scenario and GPT model employed. The three scenarios aims
at minimal, moderate, and major human interference, respectively. Overall, our
results point towards the insufficiency of complete reliance on GPT with
minimal human intervention, an increasing accuracy along with the human effort
exerted, and a surprisingly high accuracy achieved in the most humanly
demanding use-case. However, the superior use-case achieved the %83 accuracy on
the %65 of the data in which the two models agreed, suggesting that a similar
approach to ours can be relatively easily implemented and allow for mostly
automated coding of a majority of a given dataset. This could free up resources
allowing manual human coding of the remaining %35 of the data to achieve an
overall higher level of accuracy while reducing costs significantly.
- Abstract(参考訳): 政策文書を政策課題に分類することは、政治科学とコミュニケーションの分野において長年の努力であった。
社会科学研究のためのテキスト分類プロセスを自動化する努力は、これまでにも顕著な成果を上げてきたが、まだまだ大きな進歩の余地がある。
本研究では,人手によるコーディングよりも人間の関与を必要とする代替戦略の予測性能をテストする。
GPT 3.5 と GPT 4 の OpenAI モデルは,事前訓練型大規模言語モデル (LLM) であり,議会法案と議会公聴会を比較アジェンダプロジェクト 21 の政策課題に分類する。
シナリオとGPTモデルにより,3つのユースケースシナリオを提案し,全体の精度を%58~83の範囲で推定する。
3つのシナリオは、それぞれ最小、中程度、主要な人間の干渉を目標としている。
全体として,人間の介入を最小限に抑えたgptへの完全依存の欠如,人間の努力に伴う正確性の向上,そして最も要求の厳しいユースケースで達成された驚くほど高い精度を示す。
しかし、より優れたユースケースは、2つのモデルが同意したデータの%65で%83の精度を達成し、我々のアプローチは比較的容易に実装でき、与えられたデータセットの大部分のコーディングをほぼ自動化できることが示唆された。
これにより、残りの35パーセントのデータを手動で手動でコーディングすることで、コストを大幅に削減しつつ、全体的な高い精度を実現することができる。
関連論文リスト
- Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Breaking the Bank with ChatGPT: Few-Shot Text Classification for Finance [4.305568120980929]
GPT-3.5とGPT-4によるインコンテキスト学習は、必要な技術的専門知識を最小化し、高価なGPUコンピューティングの必要性を排除する。
トレーニング済みでマスキングされた他の言語モデルをSetFitで微調整して、フルデータと少数ショットの両方で最先端の結果を得る。
その結果, GPT-3.5 と GPT-4 のクエリは, より少ない例でも, 微調整, 非生成モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T15:04:16Z) - Assessing the Effectiveness of GPT-3 in Detecting False Political
Statements: A Case Study on the LIAR Dataset [0.0]
政治的偽の言明の検出は、情報の整合性を維持し、社会における誤報の拡散を防ぐために不可欠である。
歴史的に、最先端の機械学習モデルは、偽造文を検出する様々な方法を用いていた。
GPT-3のような大規模言語モデルの最近の進歩は、幅広いタスクにおいて最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-14T01:16:49Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Mitigating Political Bias in Language Models Through Reinforced
Calibration [6.964628305312507]
GPT-2 世代における政治的偏見を測定する指標について述べる。
生成テキストにおける政治的バイアスを緩和するための強化学習(RL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T07:21:30Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。