論文の概要: Reflection-Enhanced Meta-Optimization Integrating TextGrad-style Prompt Optimization with Memory-Driven Self-Evolution
- arxiv url: http://arxiv.org/abs/2508.18749v1
- Date: Tue, 26 Aug 2025 07:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.724662
- Title: Reflection-Enhanced Meta-Optimization Integrating TextGrad-style Prompt Optimization with Memory-Driven Self-Evolution
- Title(参考訳): メモリ駆動型自己進化を用いたテキストグレードスタイルのプロンプト最適化によるリフレクション強化メタ最適化
- Authors: Chunlong Wu, Zhibo Qu,
- Abstract要約: 本稿では,メモリ拡張リフレクションRetrievalRAGモジュールと自己適応型メタコントローラを統合するフレームワークを提案する。
REMOは、計算オーバーヘッドの増加にもかかわらず、より安定で堅牢なチューニングを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in prompt optimization, exemplified by methods such as TextGrad, enable automatic, gradient-like refinement of textual prompts to enhance the performance of large language models (LLMs) on specific downstream tasks. However, current approaches are typically stateless and operate independently across optimization runs, lacking mechanisms to preserve and leverage historical optimization experience. Furthermore, they are susceptible to overfitting, often yielding prompt updates that generalize poorly beyond the immediate task context. To address these limitations, we propose Reflection-Enhanced Meta-Optimization (REMO), a novel framework that integrates (1) a memory-augmented Reflection Retrieval-Augmented Generation (RAG) module - structured as a "mistake notebook" and (2) a Self-Adaptive Optimizer, implemented via an LLM-driven meta-controller that synthesizes epoch-level reflective insights to iteratively improve system-level prompting strategies. This architecture enables not only local, fine-grained prompt tuning akin to TextGrad, but also the systematic accumulation and reuse of cross-run optimization knowledge, thereby supporting continual improvement over time. We instantiate the REMO framework using Qwen3-32B in standard inference mode - without explicit chain-of-thought prompting - and evaluate its efficacy on the GSM8K benchmark for mathematical reasoning. Experimental results demonstrate that, compared to a TextGrad baseline, REMO achieves more stable and robust generalization, albeit at the cost of increased computational overhead. We provide a detailed exposition of the algorithmic design, conduct a qualitative and quantitative analysis of optimization dynamics, and present a comprehensive ablation study to elucidate the contributions of each component.
- Abstract(参考訳): TextGradのような手法で実証されたプロンプト最適化の最近の進歩により、テキストプロンプトの自動的な勾配のような改善が可能となり、特定の下流タスクにおける大規模言語モデル(LLM)の性能が向上する。
しかし、現在のアプローチは一般にステートレスであり、過去の最適化経験を保存・活用するメカニズムが欠如している。
さらに、それらは過度に適合する可能性があり、しばしば即時的なタスクコンテキストを超えて、あまり一般化しない即時更新をもたらす。
これらの制約に対処するため,(1) メモリ拡張されたリフレクション検索型生成(RAG)モジュールを"ミスタックノート"として構成した新しいフレームワークであるReflection-Enhanced Meta-Optimization(REMO)を提案し,(2) 自己適応型最適化器をLCM駆動型メタコントローラで実装し,エポックレベルの反射的洞察を合成し,システムレベルのプロンプト戦略を反復的に改善する。
このアーキテクチャは、TextGradのようなローカルできめ細かいプロンプトチューニングだけでなく、クロスラン最適化知識の体系的な蓄積と再利用を可能にし、時間とともに継続的な改善をサポートする。
我々は,Qwen3-32B を用いた REMO フレームワークを標準推論モード - 明示的なチェーン・オブ・シークレット・プロンプト無し - でインスタンス化し,数学的推論のための GSM8K ベンチマークでその有効性を評価する。
実験結果から, REMO は TextGrad ベースラインと比較して,計算オーバーヘッドの増加を犠牲にしながら,より安定かつ堅牢な一般化を実現することが示された。
本稿では,アルゴリズム設計の詳細な解説を行い,最適化力学の質的かつ定量的な解析を行い,各成分の寄与を解明するための包括的アブレーション研究を提案する。
関連論文リスト
- ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [2.368662284133926]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。
我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。
我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-02T01:16:10Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。