Fugu-MT 論文翻訳(概要): Multiclass Classification of Policy Documents with Large Language Models

論文の概要: Multiclass Classification of Policy Documents with Large Language Models

arxiv url: http://arxiv.org/abs/2310.08167v1
Date: Thu, 12 Oct 2023 09:41:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 12:01:40.490535
Title: Multiclass Classification of Policy Documents with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた政策文書の多クラス分類
Authors: Erkan Gunes, Christoffer Koch Florczak
Abstract要約: 我々は,OpenAI の GPT 3.5 および GPT 4 モデルを用いて,議会法案と議会公聴会を,比較アジェンダプロジェクトの21の政策課題に分類する。本稿では,シナリオとGPTモデルに基づいて,3つのユースケースシナリオを提案し,全体の精度を%58～83の範囲で推定する。以上の結果から,人的介入が最小限に抑えられたGPTへの完全依存の欠如,人的努力による精度の向上,人的要求の最も高いユースケースにおける驚くほど高い精度の実現が示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Classifying policy documents into policy issue topics has been a long-time effort in political science and communication disciplines. Efforts to automate text classification processes for social science research purposes have so far achieved remarkable results, but there is still a large room for progress. In this work, we test the prediction performance of an alternative strategy, which requires human involvement much less than full manual coding. We use the GPT 3.5 and GPT 4 models of the OpenAI, which are pre-trained instruction-tuned Large Language Models (LLM), to classify congressional bills and congressional hearings into Comparative Agendas Project's 21 major policy issue topics. We propose three use-case scenarios and estimate overall accuracies ranging from %58-83 depending on scenario and GPT model employed. The three scenarios aims at minimal, moderate, and major human interference, respectively. Overall, our results point towards the insufficiency of complete reliance on GPT with minimal human intervention, an increasing accuracy along with the human effort exerted, and a surprisingly high accuracy achieved in the most humanly demanding use-case. However, the superior use-case achieved the %83 accuracy on the %65 of the data in which the two models agreed, suggesting that a similar approach to ours can be relatively easily implemented and allow for mostly automated coding of a majority of a given dataset. This could free up resources allowing manual human coding of the remaining %35 of the data to achieve an overall higher level of accuracy while reducing costs significantly.
Abstract（参考訳）: 政策文書を政策課題に分類することは、政治科学とコミュニケーションの分野において長年の努力であった。社会科学研究のためのテキスト分類プロセスを自動化する努力は、これまでにも顕著な成果を上げてきたが、まだまだ大きな進歩の余地がある。本研究では,人手によるコーディングよりも人間の関与を必要とする代替戦略の予測性能をテストする。 GPT 3.5 と GPT 4 の OpenAI モデルは,事前訓練型大規模言語モデル (LLM) であり,議会法案と議会公聴会を比較アジェンダプロジェクト 21 の政策課題に分類する。シナリオとGPTモデルにより,3つのユースケースシナリオを提案し,全体の精度を%58～83の範囲で推定する。 3つのシナリオは、それぞれ最小、中程度、主要な人間の干渉を目標としている。全体として,人間の介入を最小限に抑えたgptへの完全依存の欠如,人間の努力に伴う正確性の向上,そして最も要求の厳しいユースケースで達成された驚くほど高い精度を示す。しかし、より優れたユースケースは、2つのモデルが同意したデータの%65で%83の精度を達成し、我々のアプローチは比較的容易に実装でき、与えられたデータセットの大部分のコーディングをほぼ自動化できることが示唆された。これにより、残りの35パーセントのデータを手動で手動でコーディングすることで、コストを大幅に削減しつつ、全体的な高い精度を実現することができる。

関連論文リスト

Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning [33.27410930782468]
脳科学的な知見によって導かれる新たな研究の方向性を紹介する。本稿では,3つの大規模言語モデル (LLM) と,RL(Reinforcement Learning) を用いた最先端の大規模視覚言語モデル (LVLM) を代表的なポリシー勾配アルゴリズムを用いて微調整する。その結果、RLファインチューニングは、理想的な設定下でのベースライン推論を改善するが、3つの非理想シナリオ全てで性能は著しく低下することがわかった。
論文参考訳（メタデータ） (2025-08-06T19:51:29Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。 ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文参考訳（メタデータ） (2024-11-16T18:43:26Z)
Efficacy of Large Language Models in Systematic Reviews [0.0]
本研究では,既存文献の解釈におけるLarge Language Models(LLMs)の有効性について検討した。私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。そこで我々は,Meta AIのLlama 38BとOpenAIのGPT-4oの2つの現状のLLMを,その解釈精度に基づいて評価した。
論文参考訳（メタデータ） (2024-08-03T00:01:13Z)
Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。 CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。 CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文参考訳（メタデータ） (2024-07-13T07:31:43Z)
MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文参考訳（メタデータ） (2024-06-28T19:02:59Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
Breaking the Bank with ChatGPT: Few-Shot Text Classification for Finance [4.305568120980929]
GPT-3.5とGPT-4によるインコンテキスト学習は、必要な技術的専門知識を最小化し、高価なGPUコンピューティングの必要性を排除する。トレーニング済みでマスキングされた他の言語モデルをSetFitで微調整して、フルデータと少数ショットの両方で最先端の結果を得る。その結果, GPT-3.5 と GPT-4 のクエリは, より少ない例でも, 微調整, 非生成モデルより優れていることがわかった。
論文参考訳（メタデータ） (2023-08-28T15:04:16Z)
Assessing the Effectiveness of GPT-3 in Detecting False Political Statements: A Case Study on the LIAR Dataset [0.0]
政治的偽の言明の検出は、情報の整合性を維持し、社会における誤報の拡散を防ぐために不可欠である。歴史的に、最先端の機械学習モデルは、偽造文を検出する様々な方法を用いていた。 GPT-3のような大規模言語モデルの最近の進歩は、幅広いタスクにおいて最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-06-14T01:16:49Z)
LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。 LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文参考訳（メタデータ） (2023-05-18T17:45:22Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)
Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文参考訳（メタデータ） (2020-11-16T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。