論文の概要: Self-Harmony: Learning to Harmonize Self-Supervision and Self-Play in Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.01191v1
- Date: Mon, 03 Nov 2025 03:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.104001
- Title: Self-Harmony: Learning to Harmonize Self-Supervision and Self-Play in Test-Time Reinforcement Learning
- Title(参考訳): セルフハーモニー:テスト時間強化学習におけるセルフスーパービジョンとセルフプレイの調和学習
- Authors: Ru Wang, Wei Huang, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo,
- Abstract要約: テスト時強化学習(TTRL)は、推論時に合成信号のみを使用してモデルを適応するためのラベルなしパラダイムを提供する。
簡単な直感に基づくフレームワークであるSelf-Harmonyを紹介します。
- 参考スコア(独自算出の注目度): 48.14470449860784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time reinforcement learning (TTRL) offers a label-free paradigm for adapting models using only synthetic signals at inference, but its success hinges on constructing reliable learning signals. Standard approaches such as majority voting often collapse to spurious yet popular answers. We introduce Self-Harmony, a framework built on a simple intuition: the correct answer should remain stable across both an original question and its paraphrase. Self-Harmony operationalizes this by employing a single model in two complementary roles: a Solver to produce answers and a Reframer to rephrase the input. Based on this, we further propose a pseudo-label method: instead of majority voting, it aggregates answer frequencies across these original and reframed views using the harmonic mean. This is a process that naturally selects for solutions stable under reframing, thereby avoiding the common trap of favoring view-dependent, spurious answers. Crucially, this requires no human supervision or auxiliary models. Across diverse reasoning benchmarks, Self-Harmony achieves state-of-the-art results at the label-free test-time setting, ranking first in 28 of 30 settings across multiple methods. Beyond accuracy, it demonstrates unprecedented robustness, with zero training failures in all experiments, underscoring its stability and reliability.
- Abstract(参考訳): テスト時間強化学習(TTRL)は、推論時に合成信号のみを使用してモデルを適応するためのラベルのないパラダイムを提供するが、その成功は信頼できる学習信号の構築に繋がる。
多数決のような標準的なアプローチは、しばしば急激だが人気がある答えに崩壊する。
簡単な直感に基づいて構築されたフレームワークであるSelf-Harmonyを紹介します。
自己調和(Self-Harmony)は、回答を生成するソルバーと、入力を言い換えるリフレームという2つの補完的な役割の1つのモデルを使用することで、これを運用する。
多数決ではなく、ハーモニック平均を用いて、これらのオリジナルおよび再編成されたビューに回答の周波数を集約する。
これは、リフレーミングの下で安定なソリューションを自然に選択するプロセスであり、ビュー依存的で刺激的な回答を好む共通の罠を避ける。
重要なことに、これは人間の監督や補助的なモデルを必要としない。
さまざまな推論ベンチマークを通じて、Self-Harmonyは、ラベルのないテスト時間設定で最先端の結果を達成し、複数のメソッドで30設定中28位にランクインしている。
正確性以外にも、前例のない堅牢性を示し、すべての実験でトレーニングの失敗はゼロであり、安定性と信頼性を裏付けている。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - Efficient Test-Time Scaling via Self-Calibration [18.32718448734639]
多数決によるBest-of-NサンプリングとSelf-Consistencyは単純かつ効果的だが、各クエリに対して一定の数のサンプリングレスポンスが必要である。
これは、より単純な問題に対する無駄な計算と、より困難な問題に対する不十分な探索をもたらす可能性がある。
反応のモデル信頼性は、テスト時間スケーリングの効率向上に有効である、と我々は主張する。
論文 参考訳(メタデータ) (2025-02-25T00:21:14Z) - Equivariant Self-Supervision for Musical Tempo Estimation [0.24366811507669117]
本稿では,同変を自己超越信号として用いて,非競合データからテンポ表現を学習することを提案する。
実験の結果,等変自己スーパービジョンに頼ってテンポ推定の有意義な表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-09-03T18:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。