論文の概要: ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection
- arxiv url: http://arxiv.org/abs/2505.16475v1
- Date: Thu, 22 May 2025 10:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.210726
- Title: ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection
- Title(参考訳): ReflectEvo: 自己回帰学習による小さなLLMのメタイントロスペクションの改善
- Authors: Jiaqi Li, Xinyi Dong, Yang Liu, Zhizhuo Yang, Quansen Wang, Xiaobo Wang, SongChun Zhu, Zixia Jia, Zilong Zheng,
- Abstract要約: 本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
- 参考スコア(独自算出の注目度): 60.75785864719726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel pipeline, ReflectEvo, to demonstrate that small language models (SLMs) can enhance meta introspection through reflection learning. This process iteratively generates self-reflection for self-training, fostering a continuous and self-evolving process. Leveraging this pipeline, we construct ReflectEvo-460k, a large-scale, comprehensive, self-generated reflection dataset with broadened instructions and diverse multi-domain tasks. Building upon this dataset, we demonstrate the effectiveness of reflection learning to improve SLMs' reasoning abilities using SFT and DPO with remarkable performance, substantially boosting Llama-3 from 52.4% to 71.2% and Mistral from 44.4% to 71.1%. It validates that ReflectEvo can rival or even surpass the reasoning capability of the three prominent open-sourced models on BIG-bench without distillation from superior models or fine-grained human annotation. We further conduct a deeper analysis of the high quality of self-generated reflections and their impact on error localization and correction. Our work highlights the potential of continuously enhancing the reasoning performance of SLMs through iterative reflection learning in the long run.
- Abstract(参考訳): 本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
このプロセスは反復的に自己学習のための自己回帰を生成し、継続的かつ自己進化的なプロセスを育む。
このパイプラインを活用することで、大規模で包括的な自己生成型リフレクションデータセットであるReflectEvo-460kを構築し、幅広い命令と多様なマルチドメインタスクを提供します。
本データセットを用いて,SFTとDPOを用いてSLMの推論能力を向上させるための反射学習の有効性を実証し,Llama-3を52.4%から71.2%に,Mistralを44.4%から71.1%に大きく向上させた。
ReflectEvoは、優れたモデルや微粒な人間のアノテーションを蒸留することなく、BIG-bench上の3つの著名なオープンソースモデルの推論能力に匹敵したり、超越したりすることができることを検証している。
さらに, 自己生成反射の高画質化と, 誤差の局所化と補正に対する影響について, より深く分析する。
本研究は,長期の反復的リフレクション学習を通じて,SLMの推論性能を継続的に向上する可能性を強調した。
関連論文リスト
- Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization [35.807318314766974]
EVOLVEは、好みのトレーニングと自己修正データ収集を統合する新しいフレームワークである。
GSM8KやMATHのような数学的推論タスクのパフォーマンスを継続的に向上させる。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling [65.72918416258219]
支援性に基づく知識書き換え(SKR)は、LLM生成に本質的に最適化された堅牢でプラガブルな知識書き換えである。
知識支援に基づき、まず、リライターモデルのためのトレーニングデータキュレーション戦略を設計する。
次に、生成したリライトを最適な支持度に調整するために、直接選好最適化(DPO)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-06-12T11:52:35Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。