論文の概要: Prompt Optimization via Adversarial In-Context Learning
- arxiv url: http://arxiv.org/abs/2312.02614v3
- Date: Sat, 22 Jun 2024 15:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:42:42.797809
- Title: Prompt Optimization via Adversarial In-Context Learning
- Title(参考訳): 対話型インテクスト学習によるプロンプト最適化
- Authors: Xuan Long Do, Yiran Zhao, Hannah Brown, Yuxi Xie, James Xu Zhao, Nancy F. Chen, Kenji Kawaguchi, Michael Shieh, Junxian He,
- Abstract要約: adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 51.18075178593142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new method, Adversarial In-Context Learning (adv-ICL), to optimize prompt for in-context learning (ICL) by employing one LLM as a generator, another as a discriminator, and a third as a prompt modifier. As in traditional adversarial learning, adv-ICL is implemented as a two-player game between the generator and discriminator, where the generator tries to generate realistic enough output to fool the discriminator. In each round, given an input prefixed by task instructions and several exemplars, the generator produces an output. The discriminator is then tasked with classifying the generator input-output pair as model-generated or real data. Based on the discriminator loss, the prompt modifier proposes possible edits to the generator and discriminator prompts, and the edits that most improve the adversarial loss are selected. We show that adv-ICL results in significant improvements over state-of-the-art prompt optimization techniques for both open and closed-source models on 11 generation and classification tasks including summarization, arithmetic reasoning, machine translation, data-to-text generation, and the MMLU and big-bench hard benchmarks. In addition, because our method uses pre-trained models and updates only prompts rather than model parameters, it is computationally efficient, easy to extend to any LLM and task, and effective in low-resource settings.
- Abstract(参考訳): 本稿では,1つの LLM をジェネレータとして,もう1つは識別器として,もう1つはプロンプト修飾器として,さらに1つはプロンプト修飾器として用いることで,文脈内学習(ICL)のプロンプトを最適化する新しい手法であるadv-ICLを提案する。
従来の逆数学習と同様に、adv-ICLはジェネレータと判別器の間で2人プレイヤゲームとして実装され、ジェネレータは判別器を騙すのに十分な出力を生成しようとする。
各ラウンドにおいて、タスク命令といくつかの例によってプレフィックスされた入力が与えられたとき、ジェネレータは出力を生成する。
次に、判別器は、ジェネレータの入出力ペアをモデル生成または実データとして分類する。
判別器損失に基づいて、プロンプト修飾器は生成器への編集が可能であり、識別器のプロンプトが提案され、最も良くなる編集が選択される。
本稿では,Adv-ICLにより,11 世代におけるオープンソースモデルとクローズドソースモデルの最適化手法と,要約,算術的推論,機械翻訳,データ-テキスト生成,MMLU およびBig-bench ハードベンチマークなどの分類タスクが大幅に改善されることを示す。
さらに,本手法では事前学習モデルを用いて,モデルパラメータではなくプロンプトのみを更新するので,計算効率が良く,どのLLMやタスクにも容易に拡張でき,低リソース設定でも有効である。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Selective Token Generation for Few-shot Natural Language Generation [19.015739016376532]
我々は、強化学習(RL)に基づく新しい追加学習アルゴリズムを開発する。
提案した選択トークン生成法は, PLM に基づく従来の付加的学習アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-17T00:48:52Z) - Adversarial Soft Advantage Fitting: Imitation Learning without Policy
Optimization [48.674944885529165]
対立的模倣学習(Adversarial Imitation Learning)は、識別器を学習する -- 生成されたものと専門家のデモンストレーションを区別する -- と、この識別器を騙すことができる軌跡を生成するジェネレータのポリシーとを交互に交互に扱う。
本稿では,新たな差別化要因の定式化を活用することで,政策最適化ステップの負担を軽減することを提案する。
論文 参考訳(メタデータ) (2020-06-23T18:29:13Z) - Adding A Filter Based on The Discriminator to Improve Unconditional Text
Generation [35.122864215334836]
最大最大推定(MLE)で訓練された自己回帰言語モデル(ALM)は、無条件テキスト生成で広く使用されている。
露出バイアスのため、生成されたテキストは依然として品質と多様性の低下に悩まされている。
いくつかの研究は、判別器がこの相違を検知できることを示している。
識別器と同じ入力を持つフィルタを追加することで,新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2020-04-05T09:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。