論文の概要: Magic Words or Methodical Work? Challenging Conventional Wisdom in LLM-Based Political Text Annotation
- arxiv url: http://arxiv.org/abs/2603.26898v1
- Date: Fri, 27 Mar 2026 18:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.686263
- Title: Magic Words or Methodical Work? Challenging Conventional Wisdom in LLM-Based Political Text Annotation
- Title(参考訳): マジックワードとメソジカルワーク : LLMによる政治テキスト注釈における伝統的な知恵の充足
- Authors: Lorca McLaren, James Cross, Zuzanna Krakowska, Robin Rauner, Martijn Schoonvelde,
- Abstract要約: 政治学者はテキストアノテーションに大規模言語モデル(LLM)を急速に採用している。
モデル選択、モデルサイズ、学習アプローチ、プロンプトスタイルの相互作用の仕方、一般的な"ベストプラクティス"が制御された比較を生き残るかどうかは、ほとんど調査されていない。
我々は、同じ量化、ハードウェア、即席の条件下で、4つの政治科学アノテーションタスクにまたがる6つのオープンウェイトモデルをテストする。
- 参考スコア(独自算出の注目度): 1.5744532332166479
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Political scientists are rapidly adopting large language models (LLMs) for text annotation, yet the sensitivity of annotation results to implementation choices remains poorly understood. Most evaluations test a single model or configuration; how model choice, model size, learning approach, and prompt style interact, and whether popular "best practices" survive controlled comparison, are largely unexplored. We present a controlled evaluation of these pipeline choices, testing six open-weight models across four political science annotation tasks under identical quantisation, hardware, and prompt-template conditions. Our central finding is methodological: interaction effects dominate main effects, so seemingly reasonable pipeline choices can become consequential researcher degrees of freedom. No single model, prompt style, or learning approach is uniformly superior, and the best-performing model varies across tasks. Two corollaries follow. First, model size is an unreliable guide both to cost and to performance: cross-family efficiency differences are so large that some larger models are less resource-intensive than much smaller alternatives, while within model families mid-range variants often match or exceed larger counterparts. Second, widely recommended prompt engineering techniques yield inconsistent and sometimes negative effects on annotation performance. We use these benchmark results to develop a validation-first framework - with a principled ordering of pipeline decisions, guidance on prompt freezing and held-out evaluation, reporting standards, and open-source tools - to help researchers navigate this decision space transparently.
- Abstract(参考訳): 政治学者はテキストアノテーションに大規模言語モデル(LLM)を急速に採用しているが、実装選択に対するアノテーションの感度は未だによく分かっていない。
ほとんどの評価では、モデル選択、モデルサイズ、学習アプローチ、プロンプトスタイルの相互作用、一般的な"ベストプラクティス"が制御された比較で生き残るかどうかなど、単一のモデルや構成をテストする。
我々はこれらのパイプライン選択の制御された評価を行い、同じ量化、ハードウェア、即席条件下で4つの政治科学アノテーションタスクにまたがる6つのオープンウェイトモデルをテストする。
私たちの中心的な発見は方法論的であり、相互作用効果が主な効果を支配しているため、一見合理的なパイプライン選択が連続的な研究者の自由度になる可能性がある。
単一モデル、プロンプトスタイル、あるいは学習アプローチが一様に優れているわけではなく、最高のパフォーマンスモデルはタスクによって異なる。
2つのコースが続く。
まず、モデルサイズはコストとパフォーマンスの両方に対する信頼性の低いガイドである: クロスファミリー効率の相違は非常に大きいので、より大きなモデルでは、より小さな選択肢よりもリソース集約的なものが多く、一方、モデルファミリー内のミッドレンジの変種は、より大きなモデルと一致するか、あるいは超えることが多い。
第二に、広く推奨されるプロンプトエンジニアリング技術は、アノテーションのパフォーマンスに一貫性がなく、時にはネガティブな影響をもたらす。
これらのベンチマーク結果を使って、パイプライン決定の原則的な順序付け、凍結とホールドアウト評価の迅速化に関するガイダンス、レポート標準、オープンソースツールなど、バリデーションファーストのフレームワークを開発し、研究者がこの決定空間を透過的にナビゲートするのを支援する。
関連論文リスト
- When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning [35.359482937263145]
そこで本研究では,学習促進のための雑音対応を高精度かつ効率的に識別するDISSect法を提案する。
具体的には,雑音対応がコントラスト学習に与える影響を再考し,現在のモデルと過去のモデルとの相関関係の差が,サンプル品質の特徴づけに有益であることを示す。
論文 参考訳(メタデータ) (2025-07-17T11:13:44Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Mining Stable Preferences: Adaptive Modality Decorrelation for
Multimedia Recommendation [23.667430143035787]
そこで我々は,ユーザの安定な嗜好を学習するための,新しいモダリティ記述型静的学習フレームワークMODESTを提案する。
サンプル再重み付け手法に着想を得た提案手法は,各項目の重み付けを推定し,重み付け分布の異なるモジュラリティの特徴が重み付けされるようにすることを目的としている。
提案手法は,既存のマルチメディアレコメンデーションバックボーンのプレイ・アンド・プラグモジュールとして利用できる。
論文 参考訳(メタデータ) (2023-06-25T09:09:11Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。