論文の概要: LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training
- arxiv url: http://arxiv.org/abs/2605.29888v1
- Date: Thu, 28 May 2026 13:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.333589
- Title: LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training
- Title(参考訳): LaRA:RL後処理におけるデータ汚染検出のためのレイヤワイズ表現解析
- Authors: Minju Gwak, Minseo Kwak, Dongseok Lee, Guijin Son, Alan Ritter, Jaehyung Kim,
- Abstract要約: 大規模言語モデル(LLM)における汚染検出のためのレイヤワイド表現分析フレームワークであるLaRAを提案する。
汚染は, 増幅摂動感度, 指向性崩壊, 局所剛性の向上など, 層間に進行的な幾何学的偏差を生じさせることがわかった。
また,レイヤやメトリクス間の表現レベルの偏差を集約する汚染検出プロトコルを開発した。
- 参考スコア(独自算出の注目度): 24.772253413927697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little exploration on the problem of data contamination in RL post-training, potentially undermining generalization and evaluation reliability of the training process itself. Existing detection methods primarily rely on output-level signals such as likelihood or entropy, which become unreliable for RL-trained models since RL shapes behavior through trajectory-level rewards rather than token likelihoods. We propose LaRA, a layer-wise representation analysis framework for detecting contamination in RL post-trained LLMs. LaRA introduces three complementary metrics, measuring perturbation sensitivity, directional collapse, and local representation rigidity under controlled perturbations. We find that contamination produces progressive geometric deviations across layers, including amplified perturbation sensitivity, stronger directional collapse, and enhanced local rigidity. Based on our findings, we also develop a contamination detection protocol that aggregates representation-level deviations across layers and metrics. Experiments on RL-trained reasoning models show that our protocol outperforms existing output-level baselines for contamination detection.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)における推論を改善することが示されている。
しかし、RLポストトレーニングにおけるデータ汚染の問題についてはほとんど調査されておらず、トレーニングプロセス自体の一般化と評価の信頼性を損なう可能性がある。
既存の検出法は主に、確率やエントロピーのような出力レベルの信号に依存しており、RLはトークンの確率ではなく軌道レベルの報酬によって振舞いを形作るため、RL訓練モデルでは信頼性が低い。
本稿では,RL後LLMにおける汚染検出のためのレイヤワイド表現解析フレームワークであるLaRAを提案する。
LaRAは3つの相補的な指標を導入し、摂動感度、方向崩壊、制御摂動下での局所的な表現剛性を測定している。
汚染は, 増幅摂動感度, 指向性崩壊, 局所剛性の向上など, 層間に進行的な幾何学的偏差を生じさせることがわかった。
また,本研究では,層やメトリクス間の表現レベルの偏差を集約する汚染検出プロトコルも開発している。
RL学習推論モデルの実験により,我々のプロトコルは汚染検出のための既存の出力レベルベースラインよりも優れていることが示された。
関連論文リスト
- SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models [51.99912169291891]
強化学習(Reinforcement Learning, RL)は、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。
逆強化学習(IRL)で従来のRLをインターリーブする学習パラダイムを提案する。
この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-04-18T13:49:47Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains [13.626335241662977]
Reinforcement Learning with Verifiable Rewards (RLVR)-based post-training of Large Language Models (LLMs) は、推論タスクの精度を向上させることが示されている。
直接インセンティブのない中間トークンに対するRLポストトレーニングの効果について検討する。
論文 参考訳(メタデータ) (2025-10-20T23:58:31Z) - Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.267708813420587]
データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらす
この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。
本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
論文 参考訳(メタデータ) (2025-10-10T10:58:50Z) - On The Fragility of Benchmark Contamination Detection in Reasoning Models [20.455365567122985]
LRMのリーダーボードは、評価を競合に転換し、開発者がベンチマークスイート上で直接最適化するインセンティブを与えている。
より高いランキングを達成するためのショートカットは、評価ベンチマークをトレーニングデータに組み込むことで、ベンチマーク汚染と呼ばれる膨らませたパフォーマンスを得る。
LRMに対する汚染検出の回避は極めて容易であることが判明した。
論文 参考訳(メタデータ) (2025-09-30T21:40:54Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals [49.17123504516502]
大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。
グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。
モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
論文 参考訳(メタデータ) (2025-06-02T21:40:38Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。