論文の概要: Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text
- arxiv url: http://arxiv.org/abs/2501.09719v1
- Date: Thu, 16 Jan 2025 18:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:38.304484
- Title: Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text
- Title(参考訳): 政治資料からの経済イデオロギー抽出における機械学習モデルの比較
- Authors: Jihed Ncib,
- Abstract要約: 本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。
この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study conducts a systematic assessment of the capabilities of 12 machine learning models and model variations in detecting economic ideology. As an evaluation benchmark, I use manifesto data spanning six elections in the United Kingdom and pre-annotated by expert and crowd coders. The analysis assesses the performance of several generative, fine-tuned, and zero-shot models at the granular and aggregate levels. The results show that generative models such as GPT-4o and Gemini 1.5 Flash consistently outperform other models against all benchmarks. However, they pose issues of accessibility and resource availability. Fine-tuning yielded competitive performance and offers a reliable alternative through domain-specific optimization. But its dependency on training data severely limits scalability. Zero-shot models consistently face difficulties with identifying signals of economic ideology, often resulting in negative associations with human coding. Using general knowledge for the domain-specific task of ideology scaling proved to be unreliable. Other key findings include considerable within-party variation, fine-tuning benefiting from larger training data, and zero-shot's sensitivity to prompt content. The assessments include the strengths and limitations of each model and derive best-practices for automated analyses of political content.
- Abstract(参考訳): 本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。
評価ベンチマークとして、英国で6つの選挙にまたがるマニフェストデータを使用します。
この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
GPT-4o や Gemini 1.5 Flash などの生成モデルは,すべてのベンチマークに対して,他のモデルよりも一貫して優れていた。
しかし、アクセシビリティとリソースの可用性に問題がある。
微調整によって競争性能が向上し、ドメイン固有の最適化を通じて信頼性の高い代替手段を提供する。
しかし、トレーニングデータへの依存はスケーラビリティを著しく制限します。
ゼロショットモデルは、経済イデオロギーのシグナルを特定することの難しさに常に直面する。
ドメイン固有のイデオロギースケーリングのタスクに対する一般的な知識の使用は信頼できないことが判明した。
その他の重要な発見としては、パーティ内でのかなりのバリエーション、より大きなトレーニングデータによる微調整、コンテンツへのアクセラレーションに対するゼロショットの感度などがある。
評価には各モデルの強さと限界が含まれており、政治コンテンツの自動分析のためのベストプラクティスを導出する。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。