論文の概要: InstructEval: Systematic Evaluation of Instruction Selection Methods
- arxiv url: http://arxiv.org/abs/2307.00259v1
- Date: Sat, 1 Jul 2023 07:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:01:43.308174
- Title: InstructEval: Systematic Evaluation of Instruction Selection Methods
- Title(参考訳): Instructeval: 指導選択法の体系的評価
- Authors: Anirudh Ajith, Chris Pan, Mengzhou Xia, Ameet Deshpande, Karthik
Narasimhan
- Abstract要約: In-context Learning (ICL) は、インストラクションを使用して大きな言語モデル(LLM)とデモと呼ばれる注釈付き例の小さなセットをプロンプトすることでタスクを実行する。
近年の研究では、入力の精度が命令選択アルゴリズムをインセンティブとしたICLに大きく影響していることが示されている。
我々はこれらの手法の徹底的な評価を行うためのICL評価スイートを開発した。
- 参考スコア(独自算出の注目度): 23.91126854026113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) performs tasks by prompting a large language model
(LLM) using an instruction and a small set of annotated examples called
demonstrations. Recent work has shown that the precise details of the inputs
used in the prompt significantly impacts ICL, which has incentivized
instruction selection algorithms. The effect of instruction-choice however is
severely underexplored, with existing analyses being restricted to shallow
subsets of models and tasks, which limits the generalizability of their
insights. We develop an ICL evaluation suite to conduct a thorough assessment
of these techniques. The suite includes 13 open-sourced LLMs of varying scales
from 4 distinct model families and covers 9 different tasks, representing a
range of task types across 3 categories. In this work, we evaluate the relative
performance of 7 popular instruction selection methods using our benchmark over
five desiderata relevant to ICL. We discover that using curated
manually-written instructions and simple instructions without any task-specific
descriptions often elicits superior ICL performance than that of automatic
instruction-induction methods, pointing to a lack of generalizability among the
latter. We release our evaluation suite for benchmarking instruction selection
approaches, and call for more rigorous and generalizable methods in this space.
- Abstract(参考訳): In-context Learning (ICL) は、命令を使って大きな言語モデル(LLM)とデモと呼ばれる注釈付き例の小さなセットを誘導することでタスクを実行する。
近年の研究では、入力の精度が命令選択アルゴリズムをインセンティブとしたICLに大きく影響していることが示されている。
しかし、命令チョイスの効果は極めて過小評価されており、既存の分析はモデルやタスクの浅い部分集合に限定されており、洞察の一般化性が制限されている。
我々は,これらの手法の徹底的な評価を行うためのicl評価スイートを開発した。
このスイートには、4つの異なるモデルファミリからさまざまなスケールの13のオープンソースLLMが含まれ、9つの異なるタスクをカバーし、3つのカテゴリにわたるタスクタイプの範囲を表している。
そこで本研究では,ICLに関連する5つのデシラタに対するベンチマークを用いて,7つの一般的な命令選択手法の相対的性能を評価する。
タスク固有の記述を伴わない手作業による命令と単純な命令を用いると,命令インダクション手法よりもicl性能が優れていることが分かり,その一般化可能性の欠如が指摘された。
我々は,提案手法をベンチマークするための評価スイートをリリースし,より厳密で一般化可能な手法を求めている。
関連論文リスト
- Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。