Fugu-MT 論文翻訳(概要): ACING: Actor-Critic for Instruction Learning in Black-Box Large Language Models

論文の概要: ACING: Actor-Critic for Instruction Learning in Black-Box Large Language Models

arxiv url: http://arxiv.org/abs/2411.12736v1
Date: Tue, 19 Nov 2024 18:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.215785
Title: ACING: Actor-Critic for Instruction Learning in Black-Box Large Language Models
Title（参考訳）: ACING:ブラックボックス大言語モデルにおける指導学習のアクタクリティカル
Authors: Salma Kharrat, Fares Fourati, Marco Canini,
Abstract要約: ACINGは、タスク固有のプロンプト最適化アプローチであり、ステートレスな継続的アクション強化学習問題である。我々は30の命令ベースタスク上でChatGPTのプロンプトを最適化することでACINGを検証する。 ACingはベースラインの手法を一貫して上回り、スコアの中央値が10ポイント向上した。
参考スコア（独自算出の注目度）: 4.890873355984701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The effectiveness of Large Language Models (LLMs) in solving tasks vastly depends on the quality of the instructions, which often require fine-tuning through extensive human effort. This highlights the need for automated instruction optimization; however, this optimization is particularly challenging when dealing with black-box LLMs, where model parameters and gradients remain inaccessible. We propose ACING, a task-specific prompt optimization approach framed as a stateless continuous-action Reinforcement Learning (RL) problem, known as the continuum bandit setting. ACING leverages an actor-critic-based method to optimize prompts, learning from non-differentiable reward signals. We validate ACING by optimizing prompts for ChatGPT on 30 instruction-based tasks. ACING consistently outperforms baseline methods, achieving a median score improvement of 10 percentage points. Furthermore, ACING not only recovers but also surpasses human-crafted expert instructions, achieving up to a 39 percentage point improvement against human benchmarks.
Abstract（参考訳）: タスク解決におけるLarge Language Models(LLM)の有効性は命令の品質に大きく依存する。これは自動命令最適化の必要性を強調しているが、モデルパラメータと勾配がアクセスできないブラックボックスLSMを扱う場合、この最適化は特に困難である。本稿では,連続帯域設定(continuum bandit set)として知られる状態のない連続動作強化学習(Reinforcement Learning, RL)問題として,タスク固有のプロンプト最適化手法であるACINGを提案する。 ACINGはアクター批判に基づく手法を利用して、区別不能な報酬信号から学習するプロンプトを最適化する。我々は30の命令ベースタスク上でChatGPTのプロンプトを最適化することでACINGを検証する。 ACingはベースラインの手法を一貫して上回り、スコアの中央値が10ポイント向上した。さらに、ACINGは、回復するだけでなく、人為的な専門家の指示を超越し、人間のベンチマークに対して最大39パーセントの改善を達成している。

関連論文リスト

RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models [48.63476198469349]
本稿では,タスクオブジェクト駆動型命令選択フレームワークRAISEを提案する。 RAISEは命令の微調整プロセス全体を最適化に組み込んでいる。モデルの性能改善に対する命令の期待される影響に基づいて,各ステップで命令を選択する。
論文参考訳（メタデータ） (2025-04-09T21:17:52Z)
Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。 SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文参考訳（メタデータ） (2024-12-19T17:03:02Z)
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。 GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。 GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-12-12T20:59:43Z)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。 LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-11-23T09:40:36Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning [0.08795040582681389]
大規模言語モデル (LLMs) は近年,プロンプトを用いた特殊タスクにおいて大きな人気を集めている。本稿では,ランダムトークンの代わりに有意な単語を用いたプロンプトおよびプレフィックスチューニングのためのセマンティック知識チューニング(SK-Tuning)を提案する。実験結果から,SK-Tuningは,テキスト分類や理解などのタスクにおいて,より高速なトレーニング時間,少ないパラメータ,優れたパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2024-10-11T07:55:09Z)
Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文参考訳（メタデータ） (2024-10-10T17:14:36Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching [20.607323649079845]
Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。 PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。 PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
論文参考訳（メタデータ） (2023-12-09T17:38:39Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)
Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。 137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文参考訳（メタデータ） (2021-09-03T17:55:52Z)
Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文参考訳（メタデータ） (2020-04-27T08:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。