論文の概要: SPACE: Noise Contrastive Estimation Stabilizes Self-Play Fine-Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.07175v1
- Date: Mon, 08 Dec 2025 05:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.716924
- Title: SPACE: Noise Contrastive Estimation Stabilizes Self-Play Fine-Tuning for Large Language Models
- Title(参考訳): SPACE:大規模言語モデルのための自己再生ファインチューニングを安定化するノイズコントラスト推定
- Authors: Yibo Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang,
- Abstract要約: ノイズコントラスト推定(SPACE)による新たなセルフプレイファインチューニング手法(Self-PlAy)を提案する。
SPACEは合成試料を補助成分として扱い、二項分類法で実成分と区別する。
本研究では,SPACE は様々なタスクにおける LLM の性能を著しく向上させ,より現実的なサンプルを用いた微調整の教師付けに優れることを示した。
- 参考スコア(独自算出の注目度): 35.53535406831892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play fine-tuning has demonstrated promising abilities in adapting large language models (LLMs) to downstream tasks with limited real-world data. The basic principle is to iteratively refine the model with real samples and synthetic ones generated from itself. However, the existing methods primarily focus on the relative gaps between the rewards for two types of data, neglecting their absolute values. Through theoretical analysis, we identify that the gap-based methods suffer from unstable evolution, due to the potentially degenerated objectives. To address this limitation, we introduce a novel self-play fine-tuning method, namely Self-PlAy via Noise Contrastive Estimation (SPACE), which leverages noise contrastive estimation to capture the real-world data distribution. Specifically, SPACE treats synthetic samples as auxiliary components, and discriminates them from the real ones in a binary classification manner. As a result, SPACE independently optimizes the absolute reward values for each type of data, ensuring a consistently meaningful objective and thereby avoiding the instability issue. Theoretically, we show that the optimal solution of the objective in SPACE aligns with the underlying distribution of real-world data, and SPACE guarantees a provably stable convergence to the optimal distribution. Empirically, we show that SPACE significantly improves the performance of LLMs over various tasks, and outperforms supervised fine-tuning that employs much more real-world samples. Compared to gap-based self-play fine-tuning methods, SPACE exhibits remarkable superiority and stable evolution.
- Abstract(参考訳): セルフプレイの微調整は、大規模な言語モデル(LLM)を現実世界の限られたデータで下流のタスクに適応する有望な能力を示している。
基本原理は、実際のサンプルとそれ自身から生成された合成標本でモデルを反復的に洗練することである。
しかし、既存の手法は主に2種類のデータに対する報酬の間の相対的ギャップに注目し、それらの絶対値を無視している。
理論的解析により, ギャップに基づく手法が不安定な進化に苦しむことが明らかとなった。
この制限に対処するために,ノイズコントラスト推定(SPACE)を用いた自己再生微調整手法を提案する。
特に、SPACEは合成試料を補助成分として扱い、二項分類法で実成分と区別する。
結果として、SPACEはデータの種類ごとに絶対報酬値を独立して最適化し、一貫して意味のある目標を確保し、不安定な問題を回避する。
理論的には、SPACEにおける目的の最適解は実世界のデータ分布と一致し、SPACEは最適分布への確実に安定した収束を保証する。
実験により,SPACE は様々なタスクにおける LLM の性能を著しく向上させ,より現実的なサンプルを用いた微調整の教師付けに優れることを示した。
SPACEは、ギャップベースのセルフプレイ微調整法と比較して、優れた優越性と安定した進化を示す。
関連論文リスト
- Scalable Asynchronous Federated Modeling for Spatial Data [5.741482548419374]
本研究では,低ランクガウス過程近似に基づく空間データのための非同期フェデレーションモデリングフレームワークを提案する。
独立な理論的重要性の結果として、不安定性に明示的に依存する線形収束を確立する。
数値実験により、非同期アルゴリズムは、バランスの取れたリソース割り当ての下で同期性能を達成することを示した。
論文 参考訳(メタデータ) (2025-10-02T08:04:46Z) - Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation [13.83897333268682]
宇宙船のポース推定は、ランデブー、ドッキング、軌道上のドッキングのような自律的な宇宙活動の基本的な能力である。
既存のドメイン適応アプローチは、この問題を軽減することを目的としているが、ラベル付きターゲットサンプルの少ない数が利用できる場合、しばしば性能が低下する。
本稿では,SPEキーポイント回帰に適したSDA(Supervised Domain Adaptation)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T08:03:05Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。