論文の概要: A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.00757v1
- Date: Mon, 1 Jan 2024 13:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:57:16.424768
- Title: A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models
- Title(参考訳): A & B == B & A:大規模言語モデルにおける論理推論失敗のトリガ
- Authors: Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang,
Pinjia He, Wenxiang Jiao, Michael R. Lyu
- Abstract要約: LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
- 参考スコア(独自算出の注目度): 65.86149763739141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have propelled Artificial
Intelligence (AI) to new heights, enabling breakthroughs in various tasks such
as writing assistance, code generation, and machine translation. A significant
distinction of advanced LLMs, such as ChatGPT, is their demonstrated ability to
"reason." However, evaluating the reasoning ability of LLMs remains a challenge
as most existing evaluations focus on their accuracy on the downstream tasks
rather than directly assessing their reasoning processes. Efforts have been
made to develop benchmarks and metrics to assess reasoning in LLMs, but they
suffer from data leakage or limited scope. In this paper, we introduce
LogicAsker, an automatic approach that comprehensively evaluates and improves
the logical reasoning abilities of LLMs under a set of atomic reasoning skills
based on propositional and predicate logic. The results provide insights into
LLMs' reasoning abilities and reveal the logical rules the LLMs did not learn
well. We evaluate LogicAsker on six widely deployed LLMs, including GPT-3,
ChatGPT, GPT-4, Bard, Vicuna, and Guanaco. The results show that test cases
from LogicAsker can find logical reasoning failures in different LLMs with a
rate of 25\% - 94\%. In addition, the test cases of LogicAsker can be further
used to design demonstration examples for in-context learning, which
effectively improves the logical reasoning ability of LLMs, e.g., 10\% for
GPT-4. As far as we know, our work is the first to create prompts based on
testing results to improve LLMs' formal reasoning ability effectively. All the
code, data, and results will be released for reproduction and future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、AI(Artificial Intelligence)を新たな高度に推進し、書き込み支援、コード生成、機械翻訳といった様々なタスクにおけるブレークスルーを可能にした。
ChatGPTのような高度なLLMの顕著な区別は、それらが「理性」を示す能力である。
しかし, LLMの推論能力の評価は, 既存の評価では, 推論プロセスを直接評価するのではなく, 下流タスクの精度に重点を置いているため, 依然として課題である。
LLMの推論を評価するためのベンチマークやメトリクスの開発が試みられているが、それらはデータ漏洩や限られた範囲に悩まされている。
本稿では,命題論理と述語論理に基づく一組の原子推論スキルの下で,llmの論理推論能力を包括的に評価・改善する自動アプローチであるlogicaskerを提案する。
結果はLLMの推論能力に関する洞察を与え、LLMがうまく学ばなかった論理的ルールを明らかにする。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、logicaskerのテストケースは、25\% - 94\%のレートで異なるllmで論理的推論の失敗を見つけることができる。
さらに、LogicAskerのテストケースは、GPT-4の10\%のように、LLMの論理的推論能力を効果的に向上するインコンテキスト学習の例を設計するためにさらに使用できる。
私たちの知る限り、llmsの正式な推論能力を改善するために、テスト結果に基づいてプロンプトを作成するのは私たちの仕事が初めてです。
すべてのコード、データ、結果は、再生と将来の研究のためにリリースされます。
関連論文リスト
- GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via
Game-Theoretic Evaluations [91.30799663654965]
本稿では,ボードゲームやカードゲームなどのゲーム理論タスクを通じて,競争環境における大規模言語モデルの推論能力を評価する。
GTBenchは、広く認識されている10のタスクを包括的ゲーム分類によって構成する言語駆動型環境である。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。