Fugu-MT 論文翻訳(概要): Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

論文の概要: Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

arxiv url: http://arxiv.org/abs/2509.08825v2
Date: Mon, 06 Oct 2025 16:58:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:10.670171
Title: Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
Title（参考訳）: 大規模言語モデルハッキング:テキストアノテーションにLLMを使用する際の隠れたリスクの定量化
Authors: Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy,
Abstract要約: 大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
参考スコア（独自算出の注目度）: 66.84286617519258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models are rapidly transforming social science research by enabling the automation of labor-intensive tasks like data annotation and text analysis. However, LLM outputs vary significantly depending on the implementation choices made by researchers (e.g., model selection or prompting strategy). Such variation can introduce systematic biases and random errors, which propagate to downstream analyses and cause Type I (false positive), Type II (false negative), Type S (wrong sign), or Type M (exaggerated effect) errors. We call this phenomenon where configuration choices lead to incorrect conclusions LLM hacking. We find that intentional LLM hacking is strikingly simple. By replicating 37 data annotation tasks from 21 published social science studies, we show that, with just a handful of prompt paraphrases, virtually anything can be presented as statistically significant. Beyond intentional manipulation, our analysis of 13 million labels from 18 different LLMs across 2361 realistic hypotheses shows that there is also a high risk of accidental LLM hacking, even when following standard research practices. We find incorrect conclusions in approximately 31% of hypotheses for state-of-the-art LLMs, and in half the hypotheses for smaller language models. While higher task performance and stronger general model capabilities reduce LLM hacking risk, even highly accurate models remain susceptible. The risk of LLM hacking decreases as effect sizes increase, indicating the need for more rigorous verification of LLM-based findings near significance thresholds. We analyze 21 mitigation techniques and find that human annotations provide crucial protection against false positives. Common regression estimator correction techniques can restore valid inference but trade off Type I vs. Type II errors. We publish a list of practical recommendations to prevent LLM hacking.
Abstract（参考訳）: 大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を急速に変革している。しかし、LLMの出力は、研究者による実装選択(例えば、モデル選択やプロンプト戦略)によって大きく異なる。このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。我々はこの現象をLLMハッキングの誤った結論につながる構成選択と呼ぶ。故意のLLMハッキングは驚くほど単純である。 21個の社会科学研究から37個のデータアノテーションタスクを複製することにより、ほんの数個のプロンプトのパラフレーズで、ほぼあらゆるものが統計的に重要なものとして表現できることが示される。意図的な操作の他に、2361の現実的な仮説にまたがる18の異なるLSMから1300万のラベルを分析したところ、標準的な研究慣行に従えば、偶発的なLSMハッキングのリスクが高いことがわかりました。我々は、最先端のLLMに対する仮説の約31%と、より小さな言語モデルに対する仮説の半数に誤った結論を見出した。高いタスク性能と強力な汎用モデル能力はLSMハッキングのリスクを低減させるが、非常に正確なモデルでさえも影響を受けない。 LLMハッキングのリスクは、効果の大きさが大きくなるにつれて減少し、重要なしきい値付近でLLMベースの発見をより厳密な検証の必要性が示唆された。我々は、21の緩和手法を分析し、人間のアノテーションが偽陽性に対する重要な保護を提供することを発見した。一般的な回帰推定器補正技術は、有効な推論を復元できるが、タイプIとタイプIIのエラーをトレードオフする。 LLMハッキングを防ぐための実用的な勧告のリストを公開します。

関連論文リスト

Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
Realizing LLMs' Causal Potential Requires Science-Grounded, Novel Benchmarks [20.409472830397455]
因果発見に関するLLM(Large Language Models)による最近の強いパフォーマンスの主張は、重要な欠陥によって損なわれている。 LLMは因果構造を本当に理由付けていますか? LLMの因果解析の可能性を実現するには、(P.1)最近の科学的研究に基づく堅牢な評価プロトコルを開発し、(P.2)LLM由来の知識とデータ駆動統計を組み合わせたハイブリッドな手法を設計することが必要である。
論文参考訳（メタデータ） (2025-10-18T14:58:04Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
"I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-02-18T11:00:28Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning [0.0]
ハッシュ」は、認知バイアスを減らすために、意味のない識別子で大きな言語モデルでバイアスを誘発する可能性のある単語を隠蔽する。この方法は、合計490のプロンプトを含む3つの実験セットで試験された。本手法は,外部知識のバイアス低減と包摂性の向上を図った。
論文参考訳（メタデータ） (2024-11-26T10:52:08Z)
MEGen: Generative Backdoor into Large Language Models via Model Editing [36.67048791892558]
本稿では,バックドア型大規模言語モデル(LLM)の影響に焦点を当てる。生成タスクへのバックドア拡張を目的とした,編集ベースの生成バックドアMEGenを提案する。実験の結果,MEGenは局所パラメータの小さなセットだけを調整することで,高い攻撃成功率を達成することがわかった。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文参考訳（メタデータ） (2024-02-20T22:50:41Z)
A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。本稿では,中国のLLMの安全性評価のためのデータセットを提案する。次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文参考訳（メタデータ） (2024-02-19T14:56:18Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。