論文の概要: Large Language Models Can be Lazy Learners: Analyze Shortcuts in
In-Context Learning
- arxiv url: http://arxiv.org/abs/2305.17256v2
- Date: Sat, 9 Sep 2023 18:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 21:31:40.757857
- Title: Large Language Models Can be Lazy Learners: Analyze Shortcuts in
In-Context Learning
- Title(参考訳): 大規模言語モデルは遅延学習者になり得る - コンテキスト内学習におけるショートカットの分析
- Authors: Ruixiang Tang, Dehan Kong, Longtao Huang, Hui Xue
- Abstract要約: 大規模言語モデル(LLM)は、最近、コンテキスト内学習に大きな可能性を示している。
本稿では,ショートカットやプロンプト内のスプリアス相関に対するLDMsの依存度について検討する。
より大規模なモデルでは、推論中にプロンプトでショートカットを利用する可能性が高くなるという驚くべき発見が明らかになった。
- 参考スコア(独自算出の注目度): 28.162661418161466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown great potential for
in-context learning, where LLMs learn a new task simply by conditioning on a
few input-label pairs (prompts). Despite their potential, our understanding of
the factors influencing end-task performance and the robustness of in-context
learning remains limited. This paper aims to bridge this knowledge gap by
investigating the reliance of LLMs on shortcuts or spurious correlations within
prompts. Through comprehensive experiments on classification and extraction
tasks, we reveal that LLMs are "lazy learners" that tend to exploit shortcuts
in prompts for downstream tasks. Additionally, we uncover a surprising finding
that larger models are more likely to utilize shortcuts in prompts during
inference. Our findings provide a new perspective on evaluating robustness in
in-context learning and pose new challenges for detecting and mitigating the
use of shortcuts in prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLMが数組の入力ラベルペア(prompts)を条件付けるだけで新しいタスクを学習する、コンテキスト内学習において大きな可能性を示している。
彼らの可能性にもかかわらず、エンドタスクのパフォーマンスと文脈内学習の堅牢性に影響を与える要因に対する我々の理解は限られている。
本稿では,この知識のギャップを埋めるために,近道へのllmの依存度や,プロンプト内のスプリアス相関について検討する。
分類・抽出タスクに関する包括的実験を通じて,下流タスクのプロンプトでショートカットを利用する傾向のある「怠慢な学習者」であることが判明した。
さらに、大きなモデルが推論中にプロンプトでショートカットを利用する可能性が高まるという驚くべき発見を明らかにしました。
本研究は,文脈内学習におけるロバスト性評価の新たな視点を提供するとともに,ショートカットを用いたプロンプトの検出と緩和に新たな課題を提起する。
関連論文リスト
- Shortcut Learning in In-Context Learning: A Survey [17.19214732926589]
ショートカット学習(英: Shortcut learning)とは、モデルが実践的なタスクにおいて、単純で非破壊的な決定ルールを採用する現象を指す。
In-Context Learning(ICL)におけるショートカット学習に関する関連研究をレビューするための新しい視点を提供する。
論文 参考訳(メタデータ) (2024-11-04T12:13:04Z) - Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models [9.854718405054589]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:52:52Z) - Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut
Learning in Text Classification by Language Models [20.70050968223901]
この研究は、過度に単純化されたショートカットを超えてモデルの信頼性を損なう微妙で複雑なショートカットの影響を克服する。
ショートカットを発生、スタイル、概念に分類する包括的なベンチマークを導入する。
本研究は,洗練されたショートカットに対するモデルの弾力性と感受性を系統的に検討する。
論文 参考訳(メタデータ) (2024-09-26T01:17:42Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Learning Shortcuts: On the Misleading Promise of NLU in Language Models [4.8951183832371]
大規模言語モデル(LLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けると同時に、性能向上の錯覚を生んでいることが判明している。
論文 参考訳(メタデータ) (2024-01-17T21:55:15Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。