論文の概要: Measuring Inductive Biases of In-Context Learning with Underspecified
Demonstrations
- arxiv url: http://arxiv.org/abs/2305.13299v1
- Date: Mon, 22 May 2023 17:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:42:28.826312
- Title: Measuring Inductive Biases of In-Context Learning with Underspecified
Demonstrations
- Title(参考訳): 実演による文脈内学習の帰納的バイアスの測定
- Authors: Chenglei Si, Dan Friedman, Nitish Joshi, Shi Feng, Danqi Chen, He He
- Abstract要約: In-context Learning(ICL)は、大規模言語モデルを新しいタスクに適用するための重要なパラダイムである。
特徴バイアスの観点からICLの誘導バイアスについて検討した。
- 参考スコア(独自算出の注目度): 35.16904555065152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is an important paradigm for adapting large
language models (LLMs) to new tasks, but the generalization behavior of ICL
remains poorly understood. We investigate the inductive biases of ICL from the
perspective of feature bias: which feature ICL is more likely to use given a
set of underspecified demonstrations in which two features are equally
predictive of the labels. First, we characterize the feature biases of GPT-3
models by constructing underspecified demonstrations from a range of NLP
datasets and feature combinations. We find that LLMs exhibit clear feature
biases - for example, demonstrating a strong bias to predict labels according
to sentiment rather than shallow lexical features, like punctuation. Second, we
evaluate the effect of different interventions that are designed to impose an
inductive bias in favor of a particular feature, such as adding a natural
language instruction or using semantically relevant label words. We find that,
while many interventions can influence the learner to prefer a particular
feature, it can be difficult to overcome strong prior biases. Overall, our
results provide a broader picture of the types of features that ICL may be more
likely to exploit and how to impose inductive biases that are better aligned
with the intended task.
- Abstract(参考訳): in-context learning(icl)は、大規模言語モデル(llm)を新しいタスクに適用するための重要なパラダイムであるが、iclの一般化行動は、まだよく分かっていない。
2つの特徴がラベルに対して等しく予測される一連の不特定なデモンストレーションを考えると、どの機能 iclがより使用される可能性が高いかという特徴バイアスの観点から icl の帰納的バイアスを調べる。
まず,GPT-3モデルの特徴バイアスを,さまざまなNLPデータセットと特徴の組み合わせから不特定なデモを構築することで特徴付ける。
例えば、句読点のような浅い語彙的特徴ではなく、感情に応じてラベルを予測するための強いバイアスを示す。
第2に、自然言語命令の追加や意味的関連ラベル語の使用など、特定の特徴を優先して誘導バイアスを課すように設計された異なる介入の効果を評価する。
多くの介入が、学習者が特定の特徴を好むことに影響を及ぼすが、強い事前バイアスを克服することは困難である。
全体として、我々の結果は、ICLがより活用しそうな機能の種類と、意図したタスクに適合した帰納的バイアスを課す方法のより広範な図示を提供する。
関連論文リスト
- A Causal Explainable Guardrails for Large Language Models [29.441292837667415]
大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。
LLMを望ましい属性にステアリングするための既存の方法は、しばしばバイアスのない表現を仮定し、ステアリングプロンプトのみに依存する。
LLMGuardarilは、因果解析と逆学習を組み込んだ新しいフレームワークで、偏りのない操舵表現を得る。
論文 参考訳(メタデータ) (2024-05-07T09:55:05Z) - Comparable Demonstrations are Important in In-Context Learning: A Novel
Perspective on Demonstration Selection [22.29452683679149]
In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。
本研究は、ICLのメカニズムを新しい視点から検討し、ICLの実証選択戦略についてより深い知見を提供する。
論文 参考訳(メタデータ) (2023-12-12T18:05:46Z) - Reinforcement Learning Fine-tuning of Language Models is Biased Towards
More Extractable Features [0.5937476291232802]
我々は,大規模言語モデルの教師付き微調整における帰納的バイアスを規定する原則が,強化学習を用いた微調整プロセスにおいても適用できるかどうかを考察する。
これらの仮説の強い証拠となる統計的に有意な相関関係を見いだす。
論文 参考訳(メタデータ) (2023-11-07T15:00:39Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Mitigating Label Biases for In-context Learning [28.209613730240633]
インコンテキスト学習(ICL)のための様々な設計設定は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。
本研究は,テキスト分類におけるICLの3種類のラベルバイアスに対して,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアスの3種類のタイプを定義した。
論文 参考訳(メタデータ) (2023-05-28T15:37:39Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Larger language models do in-context learning differently [93.90674531127559]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。
ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文 参考訳(メタデータ) (2023-03-07T12:24:17Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。