論文の概要: Large Language Models Are Not Strong Abstract Reasoners
- arxiv url: http://arxiv.org/abs/2305.19555v3
- Date: Tue, 2 Jan 2024 22:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:10:33.120748
- Title: Large Language Models Are Not Strong Abstract Reasoners
- Title(参考訳): 大きな言語モデルは強固な抽象的推論者ではない
- Authors: Ga\"el Gendron, Qiming Bao, Michael Witbrock, Gillian Dobbie
- Abstract要約: 大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 12.354660792999269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have shown tremendous performance on a large variety of
natural language processing tasks, ranging from text comprehension to common
sense reasoning. However, the mechanisms responsible for this success remain
opaque, and it is unclear whether LLMs can achieve human-like cognitive
capabilities or whether these models are still fundamentally circumscribed.
Abstract reasoning is a fundamental task for cognition, consisting of finding
and applying a general pattern from few data. Evaluating deep neural
architectures on this task could give insight into their potential limitations
regarding reasoning and their broad generalisation abilities, yet this is
currently an under-explored area. In this paper, we introduce a new benchmark
for evaluating language models beyond memorization on abstract reasoning tasks.
We perform extensive evaluations of state-of-the-art LLMs, showing that they
currently achieve very limited performance in contrast with other natural
language tasks, even when applying techniques that have been shown to improve
performance on other NLP tasks. We argue that guiding LLM generation to follow
causal paths could help improve the generalisation and reasoning abilities of
LLMs.
- Abstract(参考訳): 大規模言語モデルは、テキスト理解から常識推論まで、多種多様な自然言語処理タスクにおいて大きなパフォーマンスを示してきた。
しかし、この成功のメカニズムはいまだ不透明であり、LLMが人間のような認知能力を達成することができるのか、あるいはこれらのモデルがいまだに根底から取り囲まれているのかは不明である。
抽象的推論は認知の基本的なタスクであり、少数のデータから一般的なパターンを発見し、適用する。
このタスクにおける深いニューラルネットワークアーキテクチャの評価は、推論とその広範な一般化能力に関する潜在的な制限について洞察を与える可能性がある。
本稿では,抽象的推論タスクの記憶以外の言語モデルを評価するための新しいベンチマークを提案する。
現状のLLMを広範囲に評価し,他のNLPタスクの性能向上を実証した手法を適用した場合でも,現在,他の自然言語タスクと比較して非常に限られた性能を達成できていることを示す。
LLM生成を因果経路に沿って導くことは、LLMの一般化と推論能力の向上に役立つと我々は主張する。
関連論文リスト
- Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Learning Shortcuts: On the Misleading Promise of NLU in Language Models [4.8951183832371]
大規模言語モデル(LLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けると同時に、性能向上の錯覚を生んでいることが判明している。
論文 参考訳(メタデータ) (2024-01-17T21:55:15Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。