論文の概要: RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
- arxiv url: http://arxiv.org/abs/2510.08931v1
- Date: Fri, 10 Oct 2025 02:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.015869
- Title: RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
- Title(参考訳): RADAR:LLM評価におけるデータ汚染検出のためのメカニカルパス
- Authors: Ashish Kattamuri, Harshwardhan Fartale, Arpita Vats, Rahul Raja, Ishita Prasad,
- Abstract要約: 我々は、機械的解釈可能性を利用して汚染を検出するフレームワークRADARを紹介する。
RADARは、表面レベルの信頼軌道と深い力学特性にまたがる37の特徴を抽出する。
様々な評価セットで93%の精度を達成し、明確なケースでは完全な性能、不明瞭なケースでは76.7%の精度を達成している。
- 参考スコア(独自算出の注目度): 3.0440083323454474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
- Abstract(参考訳): データ汚染は、真の推論能力を示すのではなく、トレーニングデータを記憶することで、モデルが高いパフォーマンスを達成することができる、信頼性の高いLCM評価にとって重要な課題である。
RADAR(Recall vs. Reasoning Detection through Activation Representation)は,リコールに基づくモデル応答と推論に基づくモデル応答を区別することにより,機械的解釈性を活用して汚染を検出する新しいフレームワークである。
RADARは、表面レベルの信頼軌道と、注意特化、回路力学、アクティベーションフローパターンを含む深い力学特性を37個の特徴として抽出する。
これらの特徴に基づいて訓練された分類器のアンサンブルを用いて、RADARは様々な評価セットで93%の精度を達成する。
本研究は,従来の表面レベルの測定値を超えるLCM評価を推し進めるための機械論的解釈可能性を示す。
関連論文リスト
- RadarLLM: Adapting Pretrained Large Language Models for Marine Radar Target Detection with Preference-aware Loss [0.0]
本稿では,RadarLLMについて紹介する。
RadarLLMは、さまざまな検出シナリオで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-09-15T16:16:57Z) - Is it the model or the metric -- On robustness measures of deeplearning models [2.8169948004297565]
ディープフェイク検出の文脈におけるロバスト精度(RA)の正当性について再検討する。
本稿では, RAとRRの比較を行い, モデル間の類似のRAにもかかわらず, モデルが異なる許容レベル(摂動レベル)でRRが変化することを示した。
論文 参考訳(メタデータ) (2024-12-13T02:26:58Z) - Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。
従来の暗記検出方法は出力確率や損失関数に依存している。
LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T00:17:43Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Refining the ONCE Benchmark with Hyperparameter Tuning [45.55545585587993]
本研究は、ポイントクラウドデータに対する半教師付き学習アプローチの評価に焦点を当てる。
データアノテーションは、LiDARアプリケーションのコンテキストにおいて最も重要である。
従来の半教師付き手法による改善は,従来考えられていたほど深くない可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-10T13:39:07Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。