論文の概要: Shortcut Learning of Large Language Models in Natural Language
Understanding: A Survey
- arxiv url: http://arxiv.org/abs/2208.11857v1
- Date: Thu, 25 Aug 2022 03:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:06:39.968520
- Title: Shortcut Learning of Large Language Models in Natural Language
Understanding: A Survey
- Title(参考訳): 自然言語理解における大規模言語モデルのショートカット学習
- Authors: Mengnan Du, Fengxiang He, Na Zou, Dacheng Tao and Xia Hu
- Abstract要約: 大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
- 参考スコア(独自算出の注目度): 119.45683008451698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved state-of-the-art performance on a
series of natural language understanding tasks. However, these LLMs might rely
on dataset bias and artifacts as shortcuts for prediction. This has
significantly hurt their Out-of-Distribution (OOD) generalization and
adversarial robustness. In this paper, we provide a review of recent
developments that address the robustness challenge of LLMs. We first introduce
the concepts and robustness challenge of LLMs. We then introduce methods to
identify shortcut learning behavior in LLMs, characterize the reasons for
shortcut learning, as well as introduce mitigation solutions. Finally, we
identify key challenges and introduce the connections of this line of research
to other directions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
しかし、これらのllmは予測の近道としてデータセットのバイアスとアーティファクトに依存するかもしれない。
これにより、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性は大きく損なわれた。
本稿では,llmsのロバスト性問題に対処する最近の開発動向について概観する。
まず,LLMの概念と堅牢性について紹介する。
次に,LLMにおけるショートカット学習行動の同定手法を導入し,ショートカット学習の理由を特徴付けるとともに,緩和ソリューションを導入する。
最後に、重要な課題を特定し、この研究ラインの他の方向への接続を紹介します。
関連論文リスト
- Shortcut Learning in In-Context Learning: A Survey [17.19214732926589]
ショートカット学習(英: Shortcut learning)とは、モデルが実践的なタスクにおいて、単純で非破壊的な決定ルールを採用する現象を指す。
In-Context Learning(ICL)におけるショートカット学習に関する関連研究をレビューするための新しい視点を提供する。
論文 参考訳(メタデータ) (2024-11-04T12:13:04Z) - Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut
Learning in Text Classification by Language Models [20.70050968223901]
この研究は、過度に単純化されたショートカットを超えてモデルの信頼性を損なう微妙で複雑なショートカットの影響を克服する。
ショートカットを発生、スタイル、概念に分類する包括的なベンチマークを導入する。
本研究は,洗練されたショートカットに対するモデルの弾力性と感受性を系統的に検討する。
論文 参考訳(メタデータ) (2024-09-26T01:17:42Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Learning Shortcuts: On the Misleading Promise of NLU in Language Models [4.8951183832371]
大規模言語モデル(LLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けると同時に、性能向上の錯覚を生んでいることが判明している。
論文 参考訳(メタデータ) (2024-01-17T21:55:15Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Large Language Models Can be Lazy Learners: Analyze Shortcuts in
In-Context Learning [28.162661418161466]
大規模言語モデル(LLM)は、最近、コンテキスト内学習に大きな可能性を示している。
本稿では,ショートカットやプロンプト内のスプリアス相関に対するLDMsの依存度について検討する。
より大規模なモデルでは、推論中にプロンプトでショートカットを利用する可能性が高くなるという驚くべき発見が明らかになった。
論文 参考訳(メタデータ) (2023-05-26T20:56:30Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。