論文の概要: Scaling Textual Gradients via Sampling-Based Momentum
- arxiv url: http://arxiv.org/abs/2506.00400v1
- Date: Sat, 31 May 2025 05:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.89312
- Title: Scaling Textual Gradients via Sampling-Based Momentum
- Title(参考訳): サンプリングに基づくモーメントによるテキスト勾配のスケーリング
- Authors: Zixin Ding, Junyuan Hong, Jiachen T. Wang, Zinan Lin, Zhangyang Wang, Yuxin Chen,
- Abstract要約: Textual Gradient Descent (TGD)フレームワークは、有望なデータ駆動アプローチとして登場した。
トレーニングサンプルの数をスケールすることで結果が改善されるが、後にTGDのパフォーマンスが低下する。
本稿では,テキスト・グラディエント・ Descent with Momentum (TSGD-M) を提案する。
- 参考スコア(独自算出の注目度): 59.94928977345951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As prompts play an increasingly critical role in large language models (LLMs), optimizing textual prompts has become a crucial challenge. The Textual Gradient Descent (TGD) framework has emerged as a promising data-driven approach that iteratively refines textual prompts using LLM - suggested updates (or textual gradients) over minibatches of training samples. In this paper, we empirically demonstrate that scaling the number of training examples initially improves but later degrades TGD's performance across multiple downstream NLP tasks. However, while data scaling improves results for most tasks, it also significantly increases the computational cost when leveraging LLMs. To address this, we draw inspiration from numerical gradient descent and propose Textual Stochastic Gradient Descent with Momentum (TSGD-M) - a method that facilitates scalable in-context learning by reweighting prompt sampling based on past batch distributions. Across nine NLP tasks spanning three domains - including BIG-Bench Hard (BBH), natural language understanding tasks, and reasoning tasks - TSGD-M significantly outperforms TGD baselines that do not incorporate reweighted sampling, while also reducing variance in most tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)では,プロンプトがますます重要な役割を担っているため,テキストプロンプトの最適化が重要な課題となっている。
Textual Gradient Descent(TGD)フレームワークは、LLMを使ってテキストプロンプトを反復的に洗練する、有望なデータ駆動型アプローチとして登場した。
本稿では,最初はトレーニング例のスケールアップが向上するが,後にTGDの性能がダウンストリームNLPタスクで低下することが実証的に実証された。
しかし、データスケーリングはほとんどのタスクの結果を改善するが、LLMを利用する場合の計算コストも大幅に向上する。
そこで本稿では,数値勾配降下からインスピレーションを得て,過去のバッチ分布に基づいてプロンプトサンプリングを再重み付けすることで,スケーラブルなインコンテクスト学習を容易にする手法である Textual Stochastic Gradient Descent with Momentum (TSGD-M) を提案する。
BIG-Bench Hard (BBH)、自然言語理解タスク、推論タスクを含む9つのNLPタスクは、再加重サンプリングを組み込まないTGDベースラインを著しく上回り、ほとんどのタスクのばらつきも低減する。
関連論文リスト
- Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。