論文の概要: A Novel Self-Evolution Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.15281v1
- Date: Mon, 21 Jul 2025 06:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.283844
- Title: A Novel Self-Evolution Framework for Large Language Models
- Title(参考訳): 大規模言語モデルのための新しい自己進化フレームワーク
- Authors: Haoran Sun, Zekun Zhang, Shaoning Zeng,
- Abstract要約: 本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。
一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
- 参考スコア(独自算出の注目度): 18.62332474172811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capabilities of Large Language Models (LLMs) are limited to some extent by pre-training, so some researchers optimize LLMs through post-training. Existing post-training strategies, such as memory-based retrieval or preference optimization, improve user alignment yet fail to enhance the model's domain cognition. To bridge this gap, we propose a novel Dual-Phase Self-Evolution (DPSE) framework that jointly optimizes user preference adaptation and domain-specific competence. DPSE introduces a Censor module to extract multi-dimensional interaction signals and estimate satisfaction scores, which guide structured data expansion via topic-aware and preference-driven strategies. These expanded datasets support a two-stage fine-tuning pipeline: supervised domain grounding followed by frequency-aware preference optimization. Experiments across general NLP benchmarks and long-term dialogue tasks demonstrate that DPSE consistently outperforms Supervised Fine-Tuning, Preference Optimization, and Memory-Augmented baselines. Ablation studies validate the contribution of each module. In this way, our framework provides an autonomous path toward continual self-evolution of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力は事前学習によってある程度制限されているため、一部の研究者は後学習を通じてLLMを最適化している。
メモリベースの検索や好みの最適化といった既存のトレーニング戦略では、ユーザのアライメントを改善しながら、モデルのドメイン認識を強化することができない。
このギャップを埋めるために,ユーザ嗜好適応とドメイン固有の能力の両立を両立させる新しいDual-Phase Self-Evolution(DPSE)フレームワークを提案する。
DPSEでは,多次元インタラクション信号の抽出と満足度評価を行うセンサモジュールを導入している。
これらの拡張データセットは、2段階の微調整パイプラインをサポートする。
一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
アブレーション研究は各モジュールの寄与を検証する。
このようにして、我々のフレームワークはLLMの継続的な自己進化に向けた自律的な経路を提供する。
関連論文リスト
- When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Exploratory Recommendation [6.663356205396985]
大規模言語モデル(LLM)は、その多様なコンテンツ生成能力でポテンシャルを示す。
既存のLLM拡張デュアルモデルフレームワークには2つの大きな制限がある。
まず、グループアイデンティティによって引き起こされる長期的な嗜好を見落とし、関心モデリングのバイアスにつながる。
第二に、1回のアライメントプロセスでは、クローズドループ最適化にインクリメンタルなユーザデータを活用することができないため、静的な最適化の欠陥に悩まされる。
論文 参考訳(メタデータ) (2025-08-01T09:10:56Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation [8.946389785502861]
既存のLVLMベースの推論セグメンテーション手法は、しばしば不正確なセグメンテーション結果とテキスト応答の幻覚に悩まされる。
本稿では、これらの問題に対処し、改善された結果を達成するために設計された新しいフレームワークであるPOPENを紹介する。
論文 参考訳(メタデータ) (2025-04-01T10:51:01Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。