論文の概要: Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models
- arxiv url: http://arxiv.org/abs/2603.09595v1
- Date: Tue, 10 Mar 2026 12:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.310001
- Title: Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models
- Title(参考訳): NLPモデルを選ぶための政治学者のガイド
- Authors: Shreyas Meher,
- Abstract要約: 政治学者は、自然言語処理ツールを採用する際に、適切な選択に直面している。
それぞれのアプローチは、パフォーマンス、コスト、必要な専門知識のスペクトルに関して異なるポイントを占めています。
本稿は、このトレードオフをナビゲートする方法に関する実証的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Political scientists increasingly face a consequential choice when adopting natural language processing tools: build a domain-specific model from scratch, borrow and adapt an existing one, or simply fine-tune a general-purpose model on task data? Each approach occupies a different point on the spectrum of performance, cost, and required expertise, yet the discipline has offered little empirical guidance on how to navigate this trade-off. This paper provides such guidance. Using conflict event classification as a test case, I fine-tune ModernBERT on the Global Terrorism Database (GTD) to create Confli-mBERT and systematically compare it against ConfliBERT, a domain-specific pretrained model that represents the current gold standard. Confli-mBERT achieves 75.46% accuracy compared to ConfliBERT's 79.34%. Critically, the four-percentage-point gap is not uniform: on high-frequency attack types such as Bombing/Explosion (F1 = 0.95 vs. 0.96) and Kidnapping (F1 = 0.92 vs. 0.91), the models are nearly indistinguishable. Performance differences concentrate in rare event categories comprising fewer than 2% of all incidents. I use these findings to develop a practical decision framework for political scientists considering any NLP-assisted research task: when does the research question demand a specialized model, and when does an accessible fine-tuned alternative suffice? The answer, I argue, depends not on which model is "better" in the abstract, but on the specific intersection of class prevalence, error tolerance, and available resources. The model, training code, and data are publicly available on Hugging Face.
- Abstract(参考訳): 自然言語処理ツールを採用する場合、政治科学者は、スクラッチからドメイン固有のモデルを構築したり、既存のモデルを借りて適応させたり、タスクデータに汎用的なモデルを微調整するといった、連続した選択に直面しています。
それぞれのアプローチは、パフォーマンス、コスト、必要な専門知識のスペクトルの異なるポイントを占めていますが、このトレードオフをナビゲートする方法に関する実証的なガイダンスはほとんど提供されていません。
この論文はそのようなガイダンスを提供する。
テストケースとしてコンフリクトイベント分類を使用すると、私はGTD(Global Terrorism Database)でModernBERTを微調整してConfli-mBERTを作成し、現在のゴールド標準を表すドメイン固有の事前トレーニングモデルであるConfliBERTと体系的に比較します。
Confli-mBERTの精度は75.46%で、ConfliBERTの79.34%である。
F1 = 0.95 vs. 0.96) やキドナッピング (F1 = 0.92 vs. 0.91) のような高周波攻撃型では、ほぼ区別がつかない。
パフォーマンスの違いは、すべてのインシデントのうち2%未満からなる稀なイベントカテゴリに集中します。
これらの知見を,NLP支援研究課題を考慮した政治学者のための実践的意思決定枠組みの開発に活用する。研究課題はいつ,専門モデルが必要か,また,アクセス可能な微調整の代替策はいつ必要か。
その答えは、抽象的なモデルでどのモデルが"ベター"であるかではなく、クラス有病率、エラー耐性、利用可能なリソースの特定の交点に依存します。
モデル、トレーニングコード、データは、Hugging Faceで公開されている。
関連論文リスト
- How Hard is it to Confuse a World Model? [6.896797484250302]
強化学習理論において、最も紛らわしい例の概念は、後悔の少ない境界を確立する中心である。
我々は、ニューラルネットワークの世界モデルに対するこの問題を制約付き最適化として定式化する。
以上の結果から, 達成可能な混乱度は, 近似モデルの不確実性と相関することが示唆された。
論文 参考訳(メタデータ) (2025-10-24T08:08:12Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z) - A Differentiable Distance Approximation for Fairer Image Classification [31.471917430653626]
我々は,AIモデルにおいて,偏りや不公平さを測定するために使用できる指標である,人口統計の分散の微分可能な近似を提案する。
我々の近似は、トレーニング中に余分なモデルを必要としない通常のトレーニング目標と共に最適化できる。
提案手法は,タスクやデータセットのさまざまなシナリオにおけるAIモデルの公平性を改善する。
論文 参考訳(メタデータ) (2022-10-09T23:02:18Z) - Resilience from Diversity: Population-based approach to harden models
against adversarial attacks [0.0]
この研究は、敵の攻撃に対して回復力のあるモデルを導入する。
我々のモデルは、生物科学から確立された原則を生かし、人口多様性は環境変化に対して弾力性を生み出す。
Counter-Linked Model (CLM) は、周期的ランダム類似性検査を行う同じアーキテクチャのサブモデルで構成されている。
論文 参考訳(メタデータ) (2021-11-19T15:22:21Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Federated Multi-Armed Bandits [18.95281057580889]
FMAB(Federated Multi-armed Bandits)は、教師付き学習において、FL(Federated Learning)フレームワークを並列化する新しいバンドイットパラダイムである。
本稿では,FMABの一般的な枠組みを提案し,その上で2つの特定の帯域幅モデルについて検討する。
やや意外なことに、順序-最適の後悔は、更新周期を慎重に選択したクライアントの数から独立して達成できることが示されています。
論文 参考訳(メタデータ) (2021-01-28T18:59:19Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。