論文の概要: Rethinking the Comparison Unit in Sequence-Level Reinforcement Learning: An Equal-Length Paired Training Framework from Loss Correction to Sample Construction
- arxiv url: http://arxiv.org/abs/2604.17328v1
- Date: Sun, 19 Apr 2026 08:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.469089
- Title: Rethinking the Comparison Unit in Sequence-Level Reinforcement Learning: An Equal-Length Paired Training Framework from Loss Correction to Sample Construction
- Title(参考訳): シーケンスレベル強化学習における比較単位の再考--損失補正からサンプル構築まで-
- Authors: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang, Sibo wang, Linglin Liao,
- Abstract要約: 長さ問題は単に損失スケーリングバイアスと見なすのではなく、エンフ比較単位構成問題と見なすべきである。
本稿では,GRPO,GSPO,RLOOなどのグループ相対比較アルゴリズムに適用可能な具体的な方法であるEqLenを提案する。
- 参考スコア(独自算出の注目度): 3.99847394806006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates the length problem in sequence-level relative reinforcement learning. We observe that, although existing methods partially alleviate length-related phenomena, a more fundamental issue remains insufficiently characterized: the comparison units used during training lack inherent comparability. Building on this observation, we propose a new perspective: the length problem should not be viewed merely as a loss-scaling or normalization bias, but rather as a \emph{comparison unit construction} problem. We further establish a sample-construction-based training framework that, instead of applying post-hoc corrections to unequal-length responses, proactively constructs equal-length, alignable, and comparable training segments during generation. Within this framework, we propose EqLen, a concrete method applicable to group-relative comparison algorithms such as GRPO, GSPO, and RLOO. Through dual-track synchronous generation, prefix inheritance, and segment masking, EqLen efficiently collects effective equal-length training segments and enables stable
- Abstract(参考訳): 本稿では,系列レベルの相対的強化学習における長さ問題について検討する。
既存の手法は長さ関連現象を部分的に緩和するが、より根本的問題は、トレーニングで使用される比較単位には固有の可視性がない点である。
長さ問題は単に損失スケーリングや正規化バイアスと見なすのではなく、むしろ \emph{comparison unit construction} 問題と見なすべきである。
さらに、不等長応答にポストホック補正を適用する代わりに、生成中の等長、整合性、および同等のトレーニングセグメントを積極的に構築するサンプル構築ベースのトレーニングフレームワークを構築した。
本稿では,GRPO,GSPO,RLOOなどのグループ相対比較アルゴリズムに適用可能な具体的な手法であるEqLenを提案する。
二重トラック同期生成、プレフィックス継承、セグメントマスキングにより、EqLenは効率的な等長トレーニングセグメントを効率よく収集し、安定を可能にする。
関連論文リスト
- Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It [24.70923739848818]
トレーニングが進むにつれて,勾配雑音やトレーニング推論ミスマッチが増大することが明らかとなった。
更新サイズを小さくすることで、ミスマッチを効果的に抑制できることがわかった。
本稿では,学習率スケジューラという,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:00:53Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Narrowing the Gap between Supervised and Unsupervised Sentence
Representation Learning with Large Language Model [44.77515147970206]
文表現学習(SRL)は自然言語処理(NLP)の基本課題である
CSE(Contrastive Learning of Sentence Embeddings)はその優れたパフォーマンスのために主流のテクニックである。
以前の作品では、このパフォーマンスギャップは2つの表現特性(配向と均一性)の違いに起因するとされていた。
論文 参考訳(メタデータ) (2023-09-12T08:16:58Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。