論文の概要: Peer-Predictive Self-Training for Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2604.13356v1
- Date: Tue, 14 Apr 2026 23:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.329848
- Title: Peer-Predictive Self-Training for Language Model Reasoning
- Title(参考訳): 言語モデル推論のためのピア予測自己学習
- Authors: Shi Feng, Hanlin Zhang, Fan Nie, Sham Kakade, Yiling Chen,
- Abstract要約: 本稿では,複数の言語モデルを協調的に改善するラベルフリーな微調整フレームワークを提案する。
素早い質問が与えられた場合、モデルが逐次応答を生成し、最終的な集約された回答が学習の内的ターゲットとして機能する。
数学的推論のベンチマークでは、PSTはGemma-2-2B、LLaMA-3.2-1B、Qwen-2.5-1.5Bの精度を2.2から4.3ポイント改善している。
- 参考スコア(独自算出の注目度): 15.499995918997756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanisms for continued self-improvement of language models without external supervision remain an open challenge. We propose Peer-Predictive Self-Training (PST), a label-free fine-tuning framework in which multiple language models improve collaboratively by leveraging a cross-model aggregated response as an internal training signal. Given a prompt question, the models generate responses sequentially; the final aggregated answer, often more reliable than individual responses in practice, serves as an internal target for learning. We measure how informative each intermediate response is about the aggregate using pointwise mutual information (PMI), and use this signal to scale self-training updates. Responses already aligned with the aggregate are updated less, while less informative or misaligned responses are updated more. On mathematical reasoning benchmarks (SimulEq, Math500, and MultiArith), PST improves exact-match accuracy by 2.2 to 4.3 percentage points across Gemma-2-2B, LLaMA-3.2-1B, and Qwen-2.5-1.5B, and reduces the average generator-verifier gap (GV-Gap) by 26 to 40 percent, while requiring no external supervision or teacher-student hierarchy and relying solely on cross-model interactions. These results suggest that cross-model generations and peer-predictive feedback can serve as an effective approach for self-supervised training.
- Abstract(参考訳): 外部の監督なしに言語モデルの自己改善を継続するためのメカニズムは、依然としてオープンな課題である。
PST(Peer-Predictive Self-Training)は、複数の言語モデルを協調的に改善する、ラベルのない微調整フレームワークである。
最終的な集約された回答は、実際には個々の応答よりも信頼性が高く、学習のための内部的ターゲットとして機能する。
我々は、各中間応答が、ポイントワイド相互情報(PMI)を用いてアグリゲーションについてどれだけ情報的かを測定し、この信号を用いて自己学習更新をスケールする。
既にアグリゲートに一致したレスポンスはより更新され、情報や不一致のレスポンスはより更新される。
数学的推論ベンチマーク(SimulEq、Math500、MultiArith)では、PSTはGemma-2-2B、LLaMA-3.2-1B、Qwen-2.5-1.5Bの精度を2.2から4.3ポイント改善し、平均ジェネレータ・ベリファイアギャップ(GV-Gap)を26から40%削減した。
これらの結果から,クロスモデル世代とピア予測フィードバックが,自己指導型トレーニングの効果的なアプローチとして有効であることが示唆された。
関連論文リスト
- When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning [30.162034423611292]
マルチモーダル推論のための教師なし自己進化学習フレームワークを提案する。
ヒューマンアノテートされた回答や外部報酬モデルを用いることなく、安定したパフォーマンス向上を実現する。
提案手法は5つの数学的推論ベンチマークにおける推論性能と一般化を一貫して改善する。
論文 参考訳(メタデータ) (2026-03-22T15:22:19Z) - Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation [9.508727214134106]
大規模言語モデル(LLM)は優れたパフォーマンスを達成するが、さらなる向上にはコストのかかるトレーニングが必要になることが多い。
これは、トレーニング後のテクニック、特にウェイトを更新せずに推論時にモデルを改善するトレーニングなしのアプローチへの関心の高まりを動機付けている。
本稿では,適応型文脈ハブを用いた学習自由推論時プラグインであるARACH(Attention Reallocation via an Adaptive Context Hub)を提案する。
論文 参考訳(メタデータ) (2026-03-10T06:07:54Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。