論文の概要: Efficient Prompting via Dynamic In-Context Learning
- arxiv url: http://arxiv.org/abs/2305.11170v1
- Date: Thu, 18 May 2023 17:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:28:42.120004
- Title: Efficient Prompting via Dynamic In-Context Learning
- Title(参考訳): 動的インコンテキスト学習による効率的なプロンプト
- Authors: Wangchunshu Zhou, Yuchen Eleanor Jiang, Ryan Cotterell, Mrinmaya
Sachan
- Abstract要約: ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
- 参考スコア(独自算出の注目度): 76.83516913735072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary way of building AI applications is shifting from training
specialist models to prompting generalist models. A common practice for
prompting generalist models, often referred to as in-context learning, is to
append a few examples (demonstrations) to the prompt to help the model better
understand the task. While effective, in-context learning can be inefficient
because it makes the input prompt much longer, consuming valuable space in the
context window and leading to larger computational costs. In this paper, we
propose DynaICL, a recipe for efficient prompting with black-box generalist
models that dynamically allocate in-context examples according to the input
complexity and the computational budget. To achieve this, we train a meta
controller that predicts the number of in-context examples suitable for the
generalist model to make a good prediction based on the performance-efficiency
trade-off for a specific input. We then dynamically allocate the number of
demonstrations for an input according to predictions from the meta controller
and the given computation budget. Experimental results show that dynamic
example allocation helps achieve a better performance-efficiency trade-off in
two practical settings where computational resources or the required
performance is constrained. Specifically, DynaICL saves up to 46% token budget
compared to the common practice that allocates the same number of in-context
examples to each input. We also find that a meta controller trained on a
certain backbone model and tasks can successfully generalize to unseen models
and tasks.
- Abstract(参考訳): AIアプリケーションを構築する主要な方法は、トレーニングスペシャリストモデルからジェネラリストモデルへのシフトである。
一般モデルを促す一般的なプラクティスは、しばしばコンテキスト内学習と呼ばれ、モデルのタスクをよりよく理解するためのプロンプトにいくつかの例(デモ)を追加することである。
効果的なコンテキスト内学習は、入力をはるかに長くし、コンテキストウィンドウの貴重なスペースを消費し、より大きな計算コストをもたらすため、非効率である。
本稿では,入力複雑性と計算予算に応じてテキスト中の例を動的に割り当てる,ブラックボックスジェネリストモデルによる効率的なプロンプトのレシピであるDynICLを提案する。
これを実現するために,汎用モデルに適したコンテキスト内サンプル数を予測するメタコントローラを訓練し,特定の入力に対する性能効率トレードオフに基づいて良好な予測を行う。
次に,メタコントローラからの予測と与えられた計算予算に基づいて,入力に対する実演回数を動的に割り当てる。
実験結果から,計算資源や要求性能が制約された2つの実運用環境において,動的サンプル割当により性能・効率のトレードオフが向上することが示された。
特にDynaICLは、各入力に同じテキスト内例を割り当てる一般的なプラクティスと比較して、トークン予算を最大46%削減する。
また、特定のバックボーンモデルとタスクに基づいてトレーニングされたメタコントローラが、見当たらないモデルやタスクにうまく一般化できることがわかった。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。
教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文 参考訳(メタデータ) (2022-03-09T15:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。