論文の概要: In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement
- arxiv url: http://arxiv.org/abs/2410.03124v2
- Date: Mon, 26 May 2025 09:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.022127
- Title: In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement
- Title(参考訳): In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement
- Authors: Zhen-Yu Zhang, Jiandong Zhang, Huaxiu Yao, Gang Niu, Masashi Sugiyama,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 71.60563181678323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved great success across diverse tasks, and fine-tuning is sometimes needed to further enhance generation quality. Most existing methods rely on human supervision or parameter retraining, both of which are costly in terms of data collection and computational resources. To handle these challenges, a direct solution is to generate ``high-confidence'' data from unsupervised downstream tasks and use them for in-context prompting or prompt optimization to refine the pseudo-supervision. However, relying solely on such data may lead to overfitting. In this paper, we leverage the in-context learning (ICL) abilities of LLMs and propose a novel approach, pseudo-supervised demonstrations aligned prompt optimization (PAPO) algorithm, which jointly refines both the prompt and the overall pseudo-supervision. The proposed learning objective ensures that the optimized prompt guides the LLM to generate consistent responses for a given input when pseudo-supervised data from the downstream task are used as demonstrations, enabling refinement over the entire pseudo-supervision. The prompt is optimized by translating gradient signals into textual critiques, which serve as feedback to iteratively refine the prompt and model responses. Theoretical analysis in a simplified classification setting shows that the refined pseudo-supervision exhibits a geometric clustering structure, helping to mitigate overfitting. Experiments on question answering, natural language inference benchmarks, and a real-world molecule optimization task, show the effectiveness of the proposed algorithm.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
既存の手法の多くは人間の監督やパラメータの再訓練に依存しており、どちらもデータ収集と計算資源の点で費用がかかる。
これらの課題に対処するため、直接の解決策は、教師なし下流タスクから `high-confidence' データを生成して、擬似スーパービジョンを洗練させるために、インコンテキストのプロンプトやプロンプトの最適化に使用することである。
しかし、そのようなデータのみに依存すると過度に適合する可能性がある。
本稿では,LLMのインコンテキスト学習(ICL)能力を活用し,プロンプトと全体的な擬似スーパービジョンの両方を共同で改良した,擬似教師付きプロンプト最適化(PAPO)アルゴリズムを提案する。
提案した学習目的は、最適化されたプロンプトが、下流タスクからの擬似教師付きデータをデモとして使用する場合、所与の入力に対して一貫した応答を生成することを保証し、擬似スーパービジョン全体の改善を可能にする。
プロンプトは、勾配信号をテキスト批判に変換することで最適化され、プロンプトとモデル応答を反復的に洗練するためのフィードバックとして機能する。
単純な分類設定における理論的解析は、洗練された擬似スーパービジョンが幾何学的クラスタリング構造を示し、オーバーフィッティングを軽減していることを示している。
質問応答,自然言語推論ベンチマーク,実世界の分子最適化タスクの実験は,提案アルゴリズムの有効性を示す。
関連論文リスト
- Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - LLM-KT: Aligning Large Language Models with Knowledge Tracing using a Plug-and-Play Instruction [39.59752235090272]
知識追跡問題は、学生が過去の質問応答記録に基づいて次の質問に正しく答えられるかどうかを予測することを目的としている。
我々は、texttttextbfLLM-KTという、KTのための大規模言語モデル(LLM)ベースのフレームワークを提案する。
タスクレベルのアライメントのために,LLMの豊富な知識と強力な推論能力を活用して,LLMをKTに整合させるPlug-and-Play命令を設計する。
モダリティレベルのアライメントのために、従来の手法で学習した複数のモダリティを統合するために、プラグインコンテキストとシーケンスを設計する。
論文 参考訳(メタデータ) (2025-02-05T07:21:49Z) - Labels Generated by Large Language Model Helps Measuring People's Empathy in Vitro [9.536979155245026]
大規模言語モデル(LLM)は多くの分野に革命をもたらした。
本稿では,その生体内応用の可能性について考察する。
我々は、共感コンピューティングの新たな分野において、このアプローチを評価する。
論文 参考訳(メタデータ) (2025-01-01T01:06:58Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Tuning Vision-Language Models with Candidate Labels by Prompt Alignment [8.013652039026264]
視覚言語モデル(VLM)は、画像テキストペアの大規模なトレーニングデータセットから高品質な表現を学習することができる。
プロンプト学習は、下流タスクに適応するためにVLMを微調整する一般的なアプローチである。
本稿では,学習過程を候補ラベルでガイドする枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-10T13:19:31Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。