論文の概要: ACING: Actor-Critic for Instruction Learning in Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2411.12736v2
- Date: Thu, 04 Sep 2025 17:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.604919
- Title: ACING: Actor-Critic for Instruction Learning in Black-Box LLMs
- Title(参考訳): ACING:Black-Box LLMにおける指導学習のアクタクリティカル
- Authors: Salma Kharrat, Fares Fourati, Marco Canini,
- Abstract要約: ACINGは、命令最適化をステートレスで継続的な動作問題として定式化する強化学習フレームワークである。
命令推論タスクの76%で、人間が書き起こしたプロンプトより優れていることを発見する。
最大33ポイントを獲得し、命令のインダクション、要約、思考の連鎖的推論を含む33のタスクにおいて、最高の自動ベースラインよりも10ポイント中央値の改善を達成している。
- 参考スコア(独自算出の注目度): 6.974010015583548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of Large Language Models (LLMs) in solving tasks depends significantly on the quality of their instructions, which often require substantial human effort to craft. This underscores the need for automated instruction optimization. However, optimizing instructions is particularly challenging when working with black-box LLMs, where model parameters and gradients are inaccessible. We introduce ACING, an actor-critic reinforcement learning framework that formulates instruction optimization as a stateless, continuous-action problem, enabling exploration of infinite instruction spaces using only black-box feedback. ACING automatically discovers prompts that outperform human-written prompts in 76% of instruction-induction tasks, with gains of up to 33 points and a 10-point median improvement over the best automatic baseline in 33 tasks spanning instruction-induction, summarization, and chain-of-thought reasoning. Extensive ablations highlight its robustness and efficiency. An implementation of ACING is available at https://github.com/salmakh1/ACING.
- Abstract(参考訳): タスク解決におけるLarge Language Models(LLM)の有効性は、その命令の品質に大きく依存する。
これにより、自動命令最適化の必要性が浮き彫りになる。
しかし、モデルパラメータと勾配がアクセスできないブラックボックスLSMを扱う場合、命令の最適化は特に困難である。
我々は,ブラックボックスフィードバックのみを用いた無限の命令空間の探索を可能にする,命令最適化をステートレスかつ連続的な問題として定式化するアクタ批判強化学習フレームワークACINGを紹介する。
ACINGは、命令インダクションタスクの76%で人書きプロンプトを上回り、最大33ポイント、命令インダクション、要約、チェーン・オブ・シント推論にまたがる33タスクにおいて、最高の自動ベースラインよりも10ポイント中央値の改善がなされていることを自動で発見する。
大規模な改善は、その堅牢性と効率性を強調します。
ACINGの実装はhttps://github.com/salmakh1/ACINGで公開されている。
関連論文リスト
- RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models [48.63476198469349]
本稿では,タスクオブジェクト駆動型命令選択フレームワークRAISEを提案する。
RAISEは命令の微調整プロセス全体を最適化に組み込んでいる。
モデルの性能改善に対する命令の期待される影響に基づいて,各ステップで命令を選択する。
論文 参考訳(メタデータ) (2025-04-09T21:17:52Z) - Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。
SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。
提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-19T17:03:02Z) - GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。
再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。
LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T09:40:36Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning [0.08795040582681389]
大規模言語モデル (LLMs) は近年,プロンプトを用いた特殊タスクにおいて大きな人気を集めている。
本稿では,ランダムトークンの代わりに有意な単語を用いたプロンプトおよびプレフィックスチューニングのためのセマンティック知識チューニング(SK-Tuning)を提案する。
実験結果から,SK-Tuningは,テキスト分類や理解などのタスクにおいて,より高速なトレーニング時間,少ないパラメータ,優れたパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2024-10-11T07:55:09Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - PILLOW: Enhancing Efficient Instruction Fine-tuning via Prompt Matching [20.607323649079845]
Low-Rank Adaptation (LoRA)は、命令の微調整に代わる有望な代替手段となっている。
PILLOWは差別ベースのLLM機能によってLoRAのパフォーマンスを改善することを目的としている。
PILLOWは、一般的な命令の微調整手法と比較して、様々な評価指標に相反する性能を示す。
論文 参考訳(メタデータ) (2023-12-09T17:38:39Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。