論文の概要: Best Arm Identification for Prompt Learning under a Limited Budget
- arxiv url: http://arxiv.org/abs/2402.09723v1
- Date: Thu, 15 Feb 2024 05:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:50:51.973161
- Title: Best Arm Identification for Prompt Learning under a Limited Budget
- Title(参考訳): 限られた予算下でのプロンプト学習のためのベストアーム識別
- Authors: Chengshuai Shi, Kun Yang, Jing Yang and Cong Shen
- Abstract要約: この作業は、有限予算制約を即時学習に明示的に組み込む。
BAI-FBの能力を体系的に学習するための一般的な枠組みが提案されている。
GPT 3.5とLlama2を併用した複数の順応タスクの実験は、TRIPLEを以前のベースラインよりも大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 19.369973418239205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable instruction-following capability of large language models
(LLMs) has sparked a growing interest in automatically learning suitable
prompts. However, while many effective methods have been proposed, the cost
incurred during the learning process (e.g., accessing LLM and evaluating the
responses) has not been considered. To overcome this limitation, this work
explicitly incorporates a finite budget constraint into prompt learning.
Towards developing principled solutions, a novel connection is established
between prompt learning and fixed-budget best arm identification (BAI-FB) in
multi-armed bandits (MAB). Based on this connection, a general framework TRIPLE
(besT aRm Identification for Prompt LEarning) is proposed to harness the power
of BAI-FB in prompt learning systematically. Unique characteristics of prompt
learning further lead to two embedding-based enhancements of TRIPLE by
exploiting the ideas of clustering and function approximation. Extensive
experiments on multiple well-adopted tasks using both GPT 3.5 and Llama2
demonstrate the significant performance improvement of TRIPLE over the previous
baselines while satisfying the limited budget constraints.
- Abstract(参考訳): 大きな言語モデル(LLM)の驚くべき命令追従能力は、適切なプロンプトを自動的に学習することへの関心を高めている。
しかし、多くの効果的な手法が提案されているが、学習プロセス中に発生するコスト(例えば、llmへのアクセスと応答の評価)は考慮されていない。
この制限を克服するために、この研究は、有限予算制約を即時学習に明示的に組み込む。
原則的ソリューションの開発に向けて,マルチアームバンディット(MAB)における即時学習と固定予算ベストアーム識別(BAI-FB)の新たな接続を確立する。
この関係に基づいて,BAI-FBの力を利用して,システム的に学習する汎用フレームワークTRIPLE(BesT aRm Identification for Prompt LEarning)を提案する。
プロンプト学習のユニークな特徴は、クラスタリングと関数近似のアイデアを活用し、2つの組込みに基づくtripleの拡張に繋がる。
GPT 3.5 と Llama2 を併用した複数の順調なタスクに対する大規模な実験は、制限された予算制約を満たすとともに、以前のベースラインよりもTRIPLE の大幅な性能向上を示した。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic
6G-Based Applications [14.51946231794179]
本稿では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。
その目的は、$alpha$-fairnessメトリックを使用して、使い勝手のトレードオフを最適化することにある。
Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) 手法を提案する。
論文 参考訳(メタデータ) (2024-01-12T00:32:38Z) - PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching [21.835846173630717]
Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。
PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。
PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
論文 参考訳(メタデータ) (2023-12-09T17:38:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。