論文の概要: IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage
- arxiv url: http://arxiv.org/abs/2605.28247v1
- Date: Wed, 27 May 2026 09:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.953368
- Title: IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage
- Title(参考訳): IRDS:検証器結合スパースオートエンコーダによる解釈可能なRLVRデータ選択
- Authors: Yuhan Li, Mingxu Zhang, Dazhong Shen, Ying Sun,
- Abstract要約: 本稿では、スパースオートエンコーダ(SAE)クラスタベースでRLVRトレーニングインスタンスを選択するIRDS(Inter-pretable RLVR Data Selection)を提案する。
3つの命令調整モデルと6つの数学推論ベンチマークを用いた実験により、IRDSは全体的な精度が最も高いことを示す。
- 参考スコア(独自算出の注目度): 12.520216206687044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a key technique for en- hancing LLM reasoning, yet its data ineffi- ciency remains a major bottleneck. Existing methods address this problem only partially, each missing at least one of subset-level cov- erage, verifier signal use, or interpretability. To address this gap, we present IRDS (Inter- pretable RLVR Data Selection), which selects RLVR training instances on a sparse autoen- coder (SAE) cluster basis so the selection itself is auditable on recognizable problem motifs. To select instances the model both fails on and can still learn from, we introduce a verifier- coupled coverage objective on the SAE basis and solve it by greedy log-determinant max- imization. Experiments on three instruction- tuned models and six math reasoning bench- marks show that IRDS achieves the highest overall accuracy, exceeding the strongest base- line by +3.9/+4.0 pp on the two Qwen models and by +0.5 pp on Llama-3.1-8B, while run- ning an order of magnitude cheaper than the trajectory-based baseline.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、LLM推論をエンハンスするための重要なテクニックとなっているが、そのデータ非効率さは依然として大きなボトルネックとなっている。
既存の手法はこの問題に部分的にのみ対処し、それぞれサブセットレベルの cov- 消去、検証信号の使用、解釈可能性の少なくとも1つを欠いている。
このギャップに対処するためにIRDS(Inter-pretable RLVR Data Selection)を提案する。これはスパースオートエンコーダ(SAE)クラスタベースでRLVRトレーニングインスタンスを選択し、選択自体が認識可能な問題モチーフに基づいて監査可能である。
両モデルが失敗し,そこから学ぶことが可能なインスタンスを選択するために,SAEベースで検証器結合型カバレッジ目標を導入し,ログ決定型最大値イミネーションにより解決する。
3つの命令調整モデルと6つの数学推論ベンチマークの実験により、IRDSは2つのQwenモデルで最強のベースラインである+3.9/+4.0pp、Llama-3.1-8Bで+0.5ppを上回り、トラジェクトリベースベースラインよりも桁違いに低い精度で実行中であることが示された。
関連論文リスト
- Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline [56.53954182896384]
大規模言語モデルのための簡単な訓練後改良アルゴリズムである自己検証蒸留を提案する。
自己検証蒸留(Self-Verified Distillation)は、未ラベルの種問に対する候補解を生成する。
プロンプトベースの自己検証を使用してフィルタリングし、結果の自己計算データセットをトレーニングする。
トレーニングデータ構築中に、より多くの候補世代をサンプリングし、より大きな検証予算を使用することで、高品質な自己計算データが得られることがわかった。
論文 参考訳(メタデータ) (2026-05-20T17:26:10Z) - Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR [18.494852448006462]
既存のRLVRアルゴリズムでは、大量のクエリ予算が必要で、アノテーションはコストがかかる。
我々は、RLVRにアクティブラーニング(AL)を導入し、より少ないがより情報的なクエリが類似または優れたパフォーマンスをもたらすかどうかを調査する。
実験の結果,本手法は乱数および古典的ALベースラインを一貫して上回り,データの30%をトレーニングしながら全データセットのパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2026-01-30T05:41:55Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。