論文の概要: In-context Learning Generalizes, But Not Always Robustly: The Case of
Syntax
- arxiv url: http://arxiv.org/abs/2311.07811v1
- Date: Mon, 13 Nov 2023 23:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:54:16.725104
- Title: In-context Learning Generalizes, But Not Always Robustly: The Case of
Syntax
- Title(参考訳): 文脈内学習が一般化するが、必ずしもロバストではない:構文のケース
- Authors: Aaron Mueller, Albert Webson, Jackson Petty, Tal Linzen
- Abstract要約: In-context Learning (ICL)は、大規模言語モデル(LLM)を監督する一般的な方法である。
ICLの普及と実用性にもかかわらず、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかはほとんど分かっていない。
- 参考スコア(独自算出の注目度): 40.40069999922899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) is now a common method for supervising large
language models (LLMs): given labeled examples in the input context, the LLM
learns to perform the task without weight updates. Despite ICL's prevalence and
utility, we understand little about whether models supervised in this manner
represent the underlying structure of their tasks, rather than superficial
heuristics that only generalize to identically distributed examples. In this
study, we investigate the robustness of LLMs supervised via ICL using the test
case of sensitivity to syntax, which is a prerequisite for robust language
understanding. Our experiments are based on two simple and well-controlled
syntactic transformations tasks, where correct out-of-distribution
generalization requires an accurate syntactic analysis of the input. We further
investigate whether out-of-distribution generalization can be improved via
chain-of-thought prompting, where the model is provided with a sequence of
intermediate computation steps that illustrate how the task ought to be
performed. In experiments with models from the GPT, PaLM, and Llama 2 families,
we find large variance across LMs on this fundamental linguistic phenomenon,
and that the variance is explained more by the composition of the pre-training
corpus and supervision methods than by model size. In particular, we find
evidence that models pre-trained on code generalize better, and benefit to a
greater extent from chain-of-thought prompting.
- Abstract(参考訳): インコンテキスト学習(ICL)は大規模言語モデル(LLM)を監視するための一般的な手法であり、入力コンテキストにおけるラベル付き例から、LLMは重み付けをせずにタスクを実行することを学習する。
ICLの頻度と実用性にもかかわらず、同じ分散例にのみ一般化する表面的ヒューリスティックスよりも、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかをほとんど理解していない。
本研究では,言語理解に欠かせない構文に敏感なテストケースを用いて,ICLを用いたLLMのロバスト性について検討する。
実験は,入力の正確な構文解析が要求される2つの単純かつよく制御された構文変換タスクに基づいている。
さらに,このモデルには,タスクの実行方法を示す中間計算ステップのシーケンスが設けられているので,チェーン・オブ・ファシリテート・プロンプトを通じて,アウト・オブ・ディストリビューションの一般化を改善できるかどうかについても検討する。
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, この基本的言語現象について LM 間で大きなばらつきがみられ, モデルサイズよりも事前学習コーパスと監督方法の合成によってより説明される。
特に、コード上で事前訓練されたモデルがより一般化し、チェーン・オブ・シークレットのプロンプトによってより大きな利益をもたらすという証拠が見つかる。
関連論文リスト
- Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - On the Out-Of-Distribution Generalization of Multimodal Large Language
Models [24.431960338495184]
MLLM(Multimodal Large Language Models)の一般化境界について検討する。
我々は、合成画像、実世界の分布シフト、医療画像や分子画像などの特殊なデータセットにまたがるゼロショットの一般化を評価した。
テキスト内学習はMLLMの一般化を著しく向上させ,一般化障壁を克服するための新たな道を開くことができることを示す。
論文 参考訳(メタデータ) (2024-02-09T18:21:51Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。