論文の概要: Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13343v1
- Date: Thu, 17 Oct 2024 08:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:34.412900
- Title: Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models
- Title(参考訳): LLMはショートカット学習に勝るか? : 大規模言語モデルにおけるショートカット課題の評価
- Authors: Yu Yuan, Lili Zhao, Kai Zhang, Guangting Zheng, Qi Liu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
- 参考スコア(独自算出の注目度): 9.854718405054589
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in various natural language processing tasks. However, LLMs may rely on dataset biases as shortcuts for prediction, which can significantly impair their robustness and generalization capabilities. This paper presents Shortcut Suite, a comprehensive test suite designed to evaluate the impact of shortcuts on LLMs' performance, incorporating six shortcut types, five evaluation metrics, and four prompting strategies. Our extensive experiments yield several key findings: 1) LLMs demonstrate varying reliance on shortcuts for downstream tasks, significantly impairing their performance. 2) Larger LLMs are more likely to utilize shortcuts under zero-shot and few-shot in-context learning prompts. 3) Chain-of-thought prompting notably reduces shortcut reliance and outperforms other prompting strategies, while few-shot prompts generally underperform compared to zero-shot prompts. 4) LLMs often exhibit overconfidence in their predictions, especially when dealing with datasets that contain shortcuts. 5) LLMs generally have a lower explanation quality in shortcut-laden datasets, with errors falling into three types: distraction, disguised comprehension, and logical fallacy. Our findings offer new insights for evaluating robustness and generalization in LLMs and suggest potential directions for mitigating the reliance on shortcuts. The code is available at \url {https://github.com/yyhappier/ShortcutSuite.git}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
しかし、LLMは予測のショートカットとしてデータセットバイアスに依存しており、その堅牢性と一般化能力を著しく損なう可能性がある。
本稿では,6種類のショートカットタイプ,5つの評価指標,4つのプロンプト戦略を組み込んだ,LLMの性能に対するショートカットの影響を評価するための総合的なテストスイートであるShortcut Suiteを提案する。
我々の広範な実験は、いくつかの重要な発見をもたらす。
1)LLMはダウンストリームタスクのショートカットに様々な依存を示し,性能を著しく損なう。
2) より大型のLLMでは, ゼロショットと少数ショットのインコンテキスト学習プロンプトでショートカットを利用する傾向にある。
3)チェーン・オブ・シント・プロンプトはショートカットの信頼性を著しく低下させ,他のプロンプト戦略よりも優れる一方,ショット・プロンプトはゼロショット・プロンプトに比べてパフォーマンスが低い。
4) LLMは、特にショートカットを含むデータセットを扱う場合、予測に自信を欠くことが多い。
5) LLMは概して, ショートカットされたデータセットでは説明の質が低く, エラーは, 注意散逸, 疑似理解, 論理的誤りの3種類に分類される。
本研究は,LLMにおけるロバスト性および一般化を評価するための新たな知見を提供し,ショートカットへの依存を軽減するための潜在的方向性を提案する。
コードは \url {https://github.com/yhappier/ShortcutSuite.git} で公開されている。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading
Comprehension Shortcut Triggers [76.77077447576679]
真のラベルに急激な相関関係を持つ機能によって引き起こされるショートカットは、機械読み取り(MRC)システムに対する潜在的な脅威として現れている。
サンプルにショートカットトリガーを追加するためのエディタをガイドするフレームワークを導入します。
GPT4をエディタとして使うと、LCMを騙すサンプルのトリガショートカットをうまく編集できる。
論文 参考訳(メタデータ) (2023-10-24T12:37:06Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models Can be Lazy Learners: Analyze Shortcuts in
In-Context Learning [28.162661418161466]
大規模言語モデル(LLM)は、最近、コンテキスト内学習に大きな可能性を示している。
本稿では,ショートカットやプロンプト内のスプリアス相関に対するLDMsの依存度について検討する。
より大規模なモデルでは、推論中にプロンプトでショートカットを利用する可能性が高くなるという驚くべき発見が明らかになった。
論文 参考訳(メタデータ) (2023-05-26T20:56:30Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。