論文の概要: Self-Generative Adversarial Fine-Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01137v1
- Date: Sun, 01 Feb 2026 10:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.619442
- Title: Self-Generative Adversarial Fine-Tuning for Large Language Models
- Title(参考訳): 大規模言語モデルのための自己生成的逆数細調整
- Authors: Shiguang Wu, Yaqing Wang, Quanming Yao,
- Abstract要約: アライメントのための微調整大型言語モデル(LLM)は通常、人間のフィードバックから教師付き微調整や強化学習に依存する。
最近の自己再生および合成データアプローチは、この依存を減らすが、しばしば仮定や根拠のない自己評価に依存している。
本稿では,アライメントを生成逆ゲームとして定式化する,統合された微調整フレームワークである自己生成逆数LLM(SGALM)を提案する。
- 参考スコア(独自算出の注目度): 34.82368594497859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) for alignment typically relies on supervised fine-tuning or reinforcement learning from human feedback, both limited by the cost and scarcity of high-quality annotations. Recent self-play and synthetic data approaches reduce this dependence but often rely on heuristic assumptions or ungrounded self-evaluation, which can cause bias accumulation and performance drift. In this paper, we propose Self-Generative Adversarial LLM (SGALM), a unified fine-tuning framework that formulates alignment as a generative adversarial game within a single LLM. SGALM jointly evolves generation and discrimination capabilities without external reward models. Theoretical and empirical results demonstrate that SGALM achieves state-of-the-art performance, serves as an effective alignment algorithm and a robust synthetic data engine.
- Abstract(参考訳): 調整のための微調整された大型言語モデル(LLM)は、典型的には、高品質なアノテーションのコストと不足によって制限される、人間のフィードバックから監督された微調整や強化学習に依存している。
最近の自己プレイと合成データアプローチは、この依存を減らすが、しばしばヒューリスティックな仮定や、バイアスの蓄積やパフォーマンスのドリフトを引き起こす未解決の自己評価に依存している。
本稿では,単一LLM内の生成逆ゲームとしてアライメントを定式化する,統合された微調整フレームワークである自己生成逆ゲーム(SGALM)を提案する。
SGALMは外部報酬モデルなしで生成と識別機能を共同で進化させる。
理論的および実証的な結果は、SGALMが最先端の性能を達成し、効果的なアライメントアルゴリズムと堅牢な合成データエンジンとして機能することを示している。
関連論文リスト
- Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models [50.248686344277246]
自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
本稿では,SRLMの厳密な理論的保証について述べる。
論文 参考訳(メタデータ) (2026-01-30T03:45:43Z) - Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - ZEBRA: Leveraging Model-Behavioral Knowledge for Zero-Annotation Preference Dataset Construction [2.970904425631548]
ZEBRAは、モデル行動知識を活用することにより、嗜好データを構成するモデルビヘイビアワイドゼロアノテーションフレームワークである。
ZEBRAは、元のモデルの品質と類似性を評価し、完全にインスタンスレベルのアノテーションをバイパスすることで、レスポンスペアをバイナライズする。
論文 参考訳(メタデータ) (2025-02-26T01:36:40Z) - Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models [63.116041268654705]
同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
論文 参考訳(メタデータ) (2025-02-13T03:15:31Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。