論文の概要: Can Large Language Models put 2 and 2 together? Probing for Entailed Arithmetical Relationships
- arxiv url: http://arxiv.org/abs/2404.19432v1
- Date: Tue, 30 Apr 2024 10:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:34:58.875607
- Title: Can Large Language Models put 2 and 2 together? Probing for Entailed Arithmetical Relationships
- Title(参考訳): 大規模言語モデルでは2と2を組み合わせられるか?
- Authors: D. Panas, S. Seth, V. Belle,
- Abstract要約: 大規模言語モデルは,GPTリリース毎に知識獲得と(疑似)推論に着実に進展することを示す。
純粋な統計的学習は、多くの常識的推論タスクに固有の爆発に対処できるという主張は困難である。
より大きいものは必ずしも良いものではなく、純粋に統計的に改善を追求することは、コアに欠陥がある、と私たちは主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two major areas of interest in the era of Large Language Models regard questions of what do LLMs know, and if and how they may be able to reason (or rather, approximately reason). Since to date these lines of work progressed largely in parallel (with notable exceptions), we are interested in investigating the intersection: probing for reasoning about the implicitly-held knowledge. Suspecting the performance to be lacking in this area, we use a very simple set-up of comparisons between cardinalities associated with elements of various subjects (e.g. the number of legs a bird has versus the number of wheels on a tricycle). We empirically demonstrate that although LLMs make steady progress in knowledge acquisition and (pseudo)reasoning with each new GPT release, their capabilities are limited to statistical inference only. It is difficult to argue that pure statistical learning can cope with the combinatorial explosion inherent in many commonsense reasoning tasks, especially once arithmetical notions are involved. Further, we argue that bigger is not always better and chasing purely statistical improvements is flawed at the core, since it only exacerbates the dangerous conflation of the production of correct answers with genuine reasoning ability.
- Abstract(参考訳): 大規模言語モデルの時代における2つの主要な関心領域は、LLMが何を知っているのか、どのように、どのようにして推論できるのか(あるいは概ね理由)に関する疑問である。
これまで、これらの作業行は(例外を除いて)ほぼ平行に進行していましたが、私たちは交差点について調査することに興味があります。
この領域における性能の欠如を考慮し、様々な被験者の要素に関連する濃度(例えば、鳥の足の数と三輪車の車輪の数)の比較を非常に単純な設定で行う。
実験により,LSMは知識獲得と(疑似)新たなGPTリリースのそれぞれに一定の進展をみせるが,それらの能力は統計的推論に限られることが示された。
純粋統計学習は、多くの常識的推論タスク、特に算術的概念が関与すれば、組合せ的爆発に対処できるという主張は困難である。
さらに、より大きいものは必ずしも良くなく、純粋に統計的に改善を追求することは、真の推論能力による正しい回答の生成の危険な融合を悪化させるだけであるため、コアにおいて欠陥があると主張する。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。
LLMは数学的推論ベンチマークにおいて創発的な能力を示す。
我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文 参考訳(メタデータ) (2024-06-05T12:22:43Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。