論文の概要: Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
- arxiv url: http://arxiv.org/abs/2509.08825v1
- Date: Wed, 10 Sep 2025 17:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.543755
- Title: Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
- Title(参考訳): 大規模言語モデルハッキング:テキストアノテーションにLLMを使用する際の隠れたリスクの定量化
- Authors: Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy,
- Abstract要約: 大規模言語モデル(LLM)は、労働集約的なタスクの自動化を可能にすることによって、社会科学の研究を急速に変革している。
LLMの出力は、研究者による実装選択によって大きく異なる。
このようなバリエーションは、下流の分析に伝播する系統的なバイアスやランダムなエラーを導入し、タイプI、タイプII、タイプS、タイプMのエラーを引き起こす。
- 参考スコア(独自算出の注目度): 66.84286617519258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are rapidly transforming social science research by enabling the automation of labor-intensive tasks like data annotation and text analysis. However, LLM outputs vary significantly depending on the implementation choices made by researchers (e.g., model selection, prompting strategy, or temperature settings). Such variation can introduce systematic biases and random errors, which propagate to downstream analyses and cause Type I, Type II, Type S, or Type M errors. We call this LLM hacking. We quantify the risk of LLM hacking by replicating 37 data annotation tasks from 21 published social science research studies with 18 different models. Analyzing 13 million LLM labels, we test 2,361 realistic hypotheses to measure how plausible researcher choices affect statistical conclusions. We find incorrect conclusions based on LLM-annotated data in approximately one in three hypotheses for state-of-the-art models, and in half the hypotheses for small language models. While our findings show that higher task performance and better general model capabilities reduce LLM hacking risk, even highly accurate models do not completely eliminate it. The risk of LLM hacking decreases as effect sizes increase, indicating the need for more rigorous verification of findings near significance thresholds. Our extensive analysis of LLM hacking mitigation techniques emphasizes the importance of human annotations in reducing false positive findings and improving model selection. Surprisingly, common regression estimator correction techniques are largely ineffective in reducing LLM hacking risk, as they heavily trade off Type I vs. Type II errors. Beyond accidental errors, we find that intentional LLM hacking is unacceptably simple. With few LLMs and just a handful of prompt paraphrases, anything can be presented as statistically significant.
- Abstract(参考訳): 大規模言語モデル(LLM)は、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を急速に変革している。
しかし、LSMの出力は、研究者による実装選択(例えば、モデル選択、プロンプト戦略、温度設定)によって大きく異なる。
このようなバリエーションは、下流の分析に伝播する系統的なバイアスやランダムエラーを導入し、タイプI、タイプII、タイプS、タイプMのエラーを引き起こす。
私たちはこれをLSMハッキングと呼んでいる。
我々は,LLMハッキングのリスクを,18種類の異なるモデルを用いた21の社会科学研究から37のデータアノテーションタスクを複製することによって定量化する。
1300万のLSMラベルを分析して、2,361の現実的な仮説を検証し、研究者の選択肢が統計的結論にどのように影響するかを測定した。
LLMの注釈付きデータに基づく誤った結論は、最先端のモデルに対する3つの仮説のおよそ1つと、小規模な言語モデルに対する半数の仮説に見出される。
以上の結果から,高いタスク性能と優れた汎用モデル能力はLLMハッキングのリスクを低減させるが,精度の高いモデルでも完全には排除できない。
LLMハッキングのリスクは、効果の大きさが大きくなるにつれて減少し、重要しきい値付近の発見をより厳密な検証の必要性が示唆される。
LLMハッキング回避手法の広範な分析は、偽陽性の発見を減らし、モデル選択を改善する上で、人間のアノテーションの重要性を強調している。
驚くべきことに、一般的な回帰推定器補正技術は、タイプIとタイプIIのエラーを多用するため、LLMハッキングのリスクを低減するのにほとんど効果がない。
偶然の誤り以外にも、故意のLSMハッキングは受け入れがたいほど単純である。
LLMがほとんどなく、一握りのプロンプトパラフレーズだけで、何であれ統計的に有意であることを示すことができる。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning [0.0]
ハッシュ」は、認知バイアスを減らすために、意味のない識別子で大きな言語モデルでバイアスを誘発する可能性のある単語を隠蔽する。
この方法は、合計490のプロンプトを含む3つの実験セットで試験された。
本手法は,外部知識のバイアス低減と包摂性の向上を図った。
論文 参考訳(メタデータ) (2024-11-26T10:52:08Z) - MEGen: Generative Backdoor into Large Language Models via Model Editing [36.67048791892558]
本稿では,バックドア型大規模言語モデル(LLM)の影響に焦点を当てる。
生成タスクへのバックドア拡張を目的とした,編集ベースの生成バックドアMEGenを提案する。
実験の結果,MEGenは局所パラメータの小さなセットだけを調整することで,高い攻撃成功率を達成することがわかった。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。