論文の概要: Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis
- arxiv url: http://arxiv.org/abs/2506.04142v1
- Date: Wed, 04 Jun 2025 16:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.47146
- Title: Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis
- Title(参考訳): ショートカットニューロン解析による信頼できるLCM評価の確立
- Authors: Kejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao,
- Abstract要約: 我々は汚染されたモデル自体のメカニズムを解析することで汚染に対処することを目指している。
本稿では,ショートカットニューロンを比較解析と因果解析により同定する手法を提案する。
汚染軽減のためのアプローチの有効性を実験により検証した。
- 参考スコア(独自算出の注目度): 43.58944424023784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large language models (LLMs) depends on trustworthy evaluation. However, most current evaluations rely on public benchmarks, which are prone to data contamination issues that significantly compromise fairness. Previous researches have focused on constructing dynamic benchmarks to address contamination. However, continuously building new benchmarks is costly and cyclical. In this work, we aim to tackle contamination by analyzing the mechanisms of contaminated models themselves. Through our experiments, we discover that the overestimation of contaminated models is likely due to parameters acquiring shortcut solutions in training. We further propose a novel method for identifying shortcut neurons through comparative and causal analysis. Building on this, we introduce an evaluation method called shortcut neuron patching to suppress shortcut neurons. Experiments validate the effectiveness of our approach in mitigating contamination. Additionally, our evaluation results exhibit a strong linear correlation with MixEval, a recently released trustworthy benchmark, achieving a Spearman coefficient ($\rho$) exceeding 0.95. This high correlation indicates that our method closely reveals true capabilities of the models and is trustworthy. We conduct further experiments to demonstrate the generalizability of our method across various benchmarks and hyperparameter settings. Code: https://github.com/GaryStack/Trustworthy-Evaluation
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は信頼できる評価に依存している。
しかし、現在の評価のほとんどは公開ベンチマークに依存しており、公正性を著しく損なうデータ汚染の問題が発生しやすい。
これまでの研究は、汚染に対処する動的ベンチマークの構築に重点を置いてきた。
しかし、新しいベンチマークを継続的に構築することはコストが高く循環的です。
本研究では,汚染されたモデル自体のメカニズムを解析し,汚染に対処することを目的とする。
実験により, 汚染されたモデルの過大評価は, トレーニングにおけるショートカット解の獲得パラメータによる可能性が示唆された。
さらに、比較解析と因果解析により、ショートカットニューロンを同定する新しい手法を提案する。
そこで我々は, ショートカットニューロンのパッチングという評価手法を導入し, ショートカットニューロンの抑制について検討した。
汚染軽減のためのアプローチの有効性を実験により検証した。
さらに,この評価結果は,最近発表された信頼に値するベンチマークであるMixEvalと強い線形相関を示し,Spearman係数(\rho$)が0.95を超えている。
この高い相関関係は,本手法がモデルの真の能力を明らかにし,信頼性が高いことを示している。
我々は、様々なベンチマークやハイパーパラメータ設定にまたがる手法の一般化可能性を示すために、さらなる実験を行う。
コード:https://github.com/GaryStack/Trustworthy-Evaluation
関連論文リスト
- Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts [66.39976432286905]
ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。
事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
論文 参考訳(メタデータ) (2025-05-24T01:30:46Z) - Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。
本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。
提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文 参考訳(メタデータ) (2024-12-29T21:22:24Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。