論文の概要: It Takes One to Tango but More Make Trouble? In-Context Training with
Different Number of Demonstrations
- arxiv url: http://arxiv.org/abs/2303.08119v1
- Date: Tue, 14 Mar 2023 17:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:50:39.092692
- Title: It Takes One to Tango but More Make Trouble? In-Context Training with
Different Number of Demonstrations
- Title(参考訳): タンゴまで1回はかかるが、もっとトラブルを起こすのか?
さまざまなデモによるコンテキスト内トレーニング
- Authors: Jiuhai Chen, LiChang Chen, Tianyi Zhou
- Abstract要約: 本稿では,テストクエリ毎のデモを減らしてICLについて検討する。
驚いたことに、ランダムに選択されたデモを1つだけ使うと、大きな劣化は見られません。
我々の分析は、これらの広く研究されているデータセットに固有のバイアスを明らかにします。
- 参考スコア(独自算出の注目度): 20.94207798622155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are capable to perform complex reasoning by
in-context learning (ICL) when provided with a few input-output demonstrations
(demos) and more powerful when intermediate reasoning steps ("chain of thoughts
(CoT)") of the demos are given. Is it necessary to use multi-demo in ICL? In
this paper, we study ICL using fewer demos for each test query on the tasks
in~\cite{wei2022chain}. Surprisingly, we do not observe significant degradation
when using only one randomly chosen demo. To study this phenomenon, for each
test query, we categorize demos into "correct demos" leading to the correct
answer, and "wrong demos" resulting in wrong answers. Our analysis reveals an
inherent bias in those widely studied datasets: most demos are correct for a
majority of test queries, which explains the good performance of using one
random demo. Moreover, ICL (with and w/o CoT) using only one correct demo
significantly outperforms all-demo ICL adopted by most previous works,
indicating the weakness of LLMs in finding correct demo(s) for input queries,
which is difficult to evaluate on the biased datasets. Furthermore, we observe
a counterintuitive behavior of ICL using multi-demo, i.e., its accuracy
degrades(improves) when given more correct(wrong) demos. This implies that ICL
can be easily misguided by interference among demos and their spurious
correlations. Our analyses highlight several fundamental challenges that need
to be addressed in LLMs training, ICL, and benchmark design.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)によっていくつかのインプット・アウトプット・デモ(デム)が提供されると複雑な推論を行うことができ、デモの中間的推論ステップ(CoT)が与えられるとより強力になる。
ICLでマルチデモを使う必要はあるか?
本稿では,<wei2022chain} のタスクにおける各テストクエリのデモを減らして ICL について検討する。
驚いたことに、ランダムに選択されたデモのみを使用する場合、大きな劣化は観察されない。
この現象を研究するために、各テストクエリに対して、デモを"正しいデモ"に分類し、正しい回答を導き、"間違ったデモ"を誤った回答に導く。
私たちの分析では、これらの広く研究されているデータセットに固有のバイアスが示されています。ほとんどのデモは、テストクエリの大部分に対して正しいものです。
さらに、ICL(with and w/o CoT)は1つの正しいデモのみを使用しており、これまでのほとんどの研究で採用されていた全デモICLよりも大幅に優れており、バイアス付きデータセットでは評価が難しい入力クエリの正しいデモ(s)を見つける際のLCMの弱点を示している。
さらに,より正確なデモを行うと,その正確性が低下(改善)するマルチデモを用いて,iclの直観に反する行動が観察される。
これは、iclがデモとそれらのスプリアス相関の間の干渉によって容易に誤解されることを意味する。
我々の分析では、LLMのトレーニング、ICL、ベンチマーク設計で対処する必要があるいくつかの基本的な課題を取り上げている。
関連論文リスト
- Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Self-Generated In-Context Learning: Leveraging Auto-regressive Language
Models as a Demonstration Generator [22.532627423361177]
自己生成型インコンテキスト学習(SG-ICL)は、PLM自体からインコンテキスト学習のためのデモを生成する。
我々は、SG-ICLがゼロショット学習を著しく上回り、一般的に約0.6金のトレーニングサンプルの価値があることを示した。
論文 参考訳(メタデータ) (2022-06-16T10:52:13Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。