論文の概要: RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.14502v2
- Date: Tue, 16 Apr 2024 17:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:40:26.143218
- Title: RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning
- Title(参考訳): RetICL:強化学習を用いたインテクスト事例の逐次検索
- Authors: Alexander Scarlatos, Andrew Lan,
- Abstract要約: In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
- 参考スコア(独自算出の注目度): 53.52699766206808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large pre-trained language models have enabled unprecedented performance on a variety of downstream tasks. Achieving best performance with these models often leverages in-context learning, where a model performs a (possibly new) task given one or more examples. However, recent work has shown that the choice of examples can have a large impact on task performance and that finding an optimal set of examples is non-trivial. While there are many existing methods for selecting in-context examples, they generally score examples independently, ignoring the dependency between them and the order in which they are provided to the model. In this work, we propose Retrieval for In-Context Learning (RetICL), a learnable method for modeling and optimally selecting examples sequentially for in-context learning. We frame the problem of sequential example selection as a Markov decision process and train an example retriever using reinforcement learning. We evaluate RetICL on math word problem solving and scientific question answering tasks and show that it consistently outperforms or matches heuristic and learnable baselines. We also use case studies to show that RetICL implicitly learns representations of problem solving strategies.
- Abstract(参考訳): 大規模な事前学習型言語モデルの最近の進歩は、様々な下流タスクにおいて前例のない性能を実現している。
これらのモデルで最高のパフォーマンスを得るには、モデルが1つまたは複数の例に対して(おそらく新しい)タスクを実行する、コンテキスト内学習を利用することが多い。
しかし、最近の研究では、サンプルの選択がタスクのパフォーマンスに大きな影響を与え、最適なサンプルセットを見つけることは簡単ではないことが示されている。
インコンテキストの例を選択するための既存のメソッドはたくさんありますが、一般的には、モデルに提供される依存関係と順序を無視して、個別にサンプルをスコアします。
In-Context Learning (RetICL) は,インコンテキスト学習のための事例を逐次的かつ最適に選択する学習可能な手法である。
マルコフ決定過程として逐次サンプル選択の問題を考察し、強化学習を用いてサンプルレトリバーを訓練する。
RetICLを数学用語の問題解決と科学的質問応答タスクで評価し、ヒューリスティックで学習可能なベースラインを一貫して上回ったり、マッチさせたりしていることを示す。
また、ケーススタディを用いて、RetICLが暗黙的に問題解決戦略の表現を学習していることを示す。
関連論文リスト
- DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。