論文の概要: How Many Demonstrations Do You Need for In-context Learning?
- arxiv url: http://arxiv.org/abs/2303.08119v3
- Date: Mon, 24 Apr 2023 22:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 03:07:50.695391
- Title: How Many Demonstrations Do You Need for In-context Learning?
- Title(参考訳): コンテキスト内学習にはいくつのデモが必要か?
- Authors: Jiuhai Chen, Lichang Chen, Chen Zhu, Tianyi Zhou
- Abstract要約: 本稿では,テストクエリ毎のデモを減らしてICLについて検討する。
驚いたことに、ランダムに選択されたデモを1つだけ使うと、大きな劣化は見られません。
我々の分析は、これらの広く研究されているデータセットに固有のバイアスを明らかにします。
- 参考スコア(独自算出の注目度): 35.50778933175729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are capable to perform complex reasoning by
in-context learning (ICL) when provided with a few input-output demonstrations
(demos) and more powerful when intermediate reasoning steps ("chain of thoughts
(CoT)") of the demos are given. Is it necessary to use multi-demo in ICL? In
this paper, we study ICL using fewer demos for each test query on the tasks
in~\cite{wei2022chain}. Surprisingly, we do not observe significant degradation
when using only one randomly chosen demo. To study this phenomenon, for each
test query, we categorize demos into "correct demos" leading to the correct
answer, and "wrong demos" resulting in wrong answers. Our analysis reveals an
inherent bias in those widely studied datasets: most demos are correct for a
majority of test queries, which explains the good performance of using one
random demo. Moreover, ICL (with and w/o CoT) using only one correct demo
significantly outperforms all-demo ICL adopted by most previous works,
indicating the weakness of LLMs in finding correct demo(s) for input queries,
which is difficult to evaluate on the biased datasets. Furthermore, we observe
a counterintuitive behavior of ICL using multi-demo, i.e., its accuracy
degrades(improves) when given more correct(wrong) demos. This implies that ICL
can be easily misguided by interference among demos and their spurious
correlations. Our analyses highlight several fundamental challenges that need
to be addressed in LLMs training, ICL, and benchmark design.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)によっていくつかのインプット・アウトプット・デモ(デム)が提供されると複雑な推論を行うことができ、デモの中間的推論ステップ(CoT)が与えられるとより強力になる。
ICLでマルチデモを使う必要はあるか?
本稿では,<wei2022chain} のタスクにおける各テストクエリのデモを減らして ICL について検討する。
驚いたことに、ランダムに選択されたデモのみを使用する場合、大きな劣化は観察されない。
この現象を研究するために、各テストクエリに対して、デモを"正しいデモ"に分類し、正しい回答を導き、"間違ったデモ"を誤った回答に導く。
私たちの分析では、これらの広く研究されているデータセットに固有のバイアスが示されています。ほとんどのデモは、テストクエリの大部分に対して正しいものです。
さらに、ICL(with and w/o CoT)は1つの正しいデモのみを使用しており、これまでのほとんどの研究で採用されていた全デモICLよりも大幅に優れており、バイアス付きデータセットでは評価が難しい入力クエリの正しいデモ(s)を見つける際のLCMの弱点を示している。
さらに,より正確なデモを行うと,その正確性が低下(改善)するマルチデモを用いて,iclの直観に反する行動が観察される。
これは、iclがデモとそれらのスプリアス相関の間の干渉によって容易に誤解されることを意味する。
我々の分析では、LLMのトレーニング、ICL、ベンチマーク設計で対処する必要があるいくつかの基本的な課題を取り上げている。
関連論文リスト
- DemoRank: Selecting Effective Demonstrations for Large Language Models in Ranking Task [24.780407347867943]
本稿では,文節ランキングタスクにおいて,コンテキスト内デモを適切に選択する方法について検討する。
ランキングタスクのためのデモ選択フレームワークであるDemoRankを提案する。
論文 参考訳(メタデータ) (2024-06-24T06:10:13Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Ambiguity-Aware In-Context Learning with Large Language Models [27.20414960164616]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。
そこで本研究では,ICLの優れた実演方法について検討する。
セマンティックに類似したICLのデモンストレーションを選択するだけでなく、テスト例を取り巻く固有のラベルの曖昧さを解決するのに役立つものを選択することは有益である。
論文 参考訳(メタデータ) (2023-09-14T17:48:34Z) - Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。
ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。
本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文 参考訳(メタデータ) (2023-08-17T04:45:19Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。