論文の概要: Measuring reasoning capabilities of ChatGPT
- arxiv url: http://arxiv.org/abs/2310.05993v1
- Date: Sun, 8 Oct 2023 20:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:18:38.194629
- Title: Measuring reasoning capabilities of ChatGPT
- Title(参考訳): ChatGPTの推論能力の測定
- Authors: Adrian Groza
- Abstract要約: 推論タスクに適用した場合、ChatGPTが生成する論理的欠陥を定量化する。
この図書館には算術パズル、論理方程式、スドゥークのようなパズル、ゼブラのようなパズル、真理を解き明かすパズル、グリッドパズル、奇数、自己参照パズルなど、様々な種類のパズルが含まれている。
- 参考スコア(独自算出の注目度): 1.3597551064547502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: I shall quantify the logical faults generated by ChatGPT when applied to
reasoning tasks. For experiments, I use the 144 puzzles from the library
\url{https://users.utcluj.ro/~agroza/puzzles/maloga}~\cite{groza:fol}. The
library contains puzzles of various types, including arithmetic puzzles,
logical equations, Sudoku-like puzzles, zebra-like puzzles, truth-telling
puzzles, grid puzzles, strange numbers, or self-reference puzzles. The correct
solutions for these puzzles were checked using the theorem prover
Prover9~\cite{mccune2005release} and the finite models finder
Mace4~\cite{mccune2003mace4} based on human-modelling in Equational First Order
Logic. A first output of this study is the benchmark of 100 logical puzzles.
For this dataset ChatGPT provided both correct answer and justification for 7\%
only. %, while BARD for 5\%. Since the dataset seems challenging, the
researchers are invited to test the dataset on more advanced or tuned models
than ChatGPT3.5 with more crafted prompts. A second output is the
classification of reasoning faults conveyed by ChatGPT. This classification
forms a basis for a taxonomy of reasoning faults generated by large language
models. I have identified 67 such logical faults, among which: inconsistencies,
implication does not hold, unsupported claim, lack of commonsense, wrong
justification. The 100 solutions generated by ChatGPT contain 698 logical
faults. That is on average, 7 fallacies for each reasoning task. A third ouput
is the annotated answers of the ChatGPT with the corresponding logical faults.
Each wrong statement within the ChatGPT answer was manually annotated, aiming
to quantify the amount of faulty text generated by the language model. On
average, 26.03\% from the generated text was a logical fault.
- Abstract(参考訳): 推論タスクに適用した場合、ChatGPTが生成する論理的欠陥を定量化する。
実験では、ライブラリ \url{https://users.utcluj.ro/~agroza/puzzles/maloga}~\cite{groza:fol} の144のパズルを使用します。
このライブラリには、算術パズル、論理方程式、数独様パズル、ゼブラ様パズル、真理占いパズル、格子パズル、奇数、自己参照パズルなど、様々なタイプのパズルが含まれている。
これらのパズルの正しい解は、定理証明器 Prover9~\cite{mccune 2005release} と有限モデルファインダー Mace4~\cite{mccune2003mace4} を用いて、等式一階論理の人間モデリングに基づいて検証された。
この研究の最初の成果は100の論理パズルのベンチマークである。
このデータセットに対してChatGPTは、正解と正解の両方を7\%で提供した。
%,bardは5\%であった。
データセットは難しいように見えるため、研究者はChatGPT3.5よりも高度なモデルやチューニングされたモデルでデータセットをテストするよう招待されている。
第2の出力はChatGPTが伝達する推論障害の分類である。
この分類は、大きな言語モデルによって生成された推論障害の分類の基礎を形成する。
私は67の論理的な欠陥を特定した: 矛盾、含意、主張の禁止、常識の欠如、誤った正当化。
ChatGPTによって生成される100の解は698の論理的欠陥を含む。
これは、推論タスク毎に平均7つの誤用です。
第3のouputは、対応する論理障害に対するchatgptの注釈付き回答である。
ChatGPTの回答内の間違った文は手動で注釈付けされ、言語モデルによって生成された欠陥テキストの量を定量化することを目的としていた。
平均すると、生成されたテキストから26.03\%が論理的な欠点である。
関連論文リスト
- On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models [25.732397636695882]
我々は騎士とナイフパズルの原理に基づく仮定推論のベンチマークである$textitTruthQuest$を紹介した。
評価の結果、Llama 3やMixtral-8x7Bのような大規模言語モデルはこれらのタスクを解くのにかなりの困難を呈している。
論文 参考訳(メタデータ) (2024-06-18T12:24:22Z) - Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs [102.37496443389203]
LGOT(Logic-Query-of-Thoughts)は知識グラフ推論と大規模言語モデルを組み合わせた最初の方法である。
実験の結果,ChatGPTよりも20%向上した。
論文 参考訳(メタデータ) (2024-03-17T17:01:45Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3
and Challenging for GPT-4 [0.0]
大型言語モデル (LLM) は、ゼロショット推論機能を実証している。
本稿では,探偵パズルとして構築された191の長文(平均1200語)のミステリー物語からなる,そのようなベンチマークを紹介する。
GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。
論文 参考訳(メタデータ) (2022-12-20T09:34:43Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Natural language understanding for logical games [0.9594432031144714]
自然言語の論理パズルを自動的に解けるシステムを開発した。
私たちのソリューションは推論モジュールと推論モジュールで構成されています。
また、各パズルに関連する自然言語に関する質問に対して、Yes/Noの回答を提供する能力を、ソフトウェアエージェントに提供します。
論文 参考訳(メタデータ) (2021-10-01T17:36:14Z) - A new perspective of paramodulation complexity by solving massive 8
puzzles [0.4514386953429769]
スライディングパズルは、プレイヤーがボード上の特定のルートに沿ってスライドして特定のエンド構成に達するコンビネーションパズルです。
パラモジュレーションで得られる節数をカウントすることで、各パズルの難易度を評価できることが分かりました。
論文 参考訳(メタデータ) (2020-12-15T11:47:47Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。