論文の概要: A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.00757v1
- Date: Mon, 1 Jan 2024 13:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:57:16.424768
- Title: A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models
- Title(参考訳): A & B == B & A:大規模言語モデルにおける論理推論失敗のトリガ
- Authors: Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang,
Pinjia He, Wenxiang Jiao, Michael R. Lyu
- Abstract要約: LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
- 参考スコア(独自算出の注目度): 65.86149763739141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have propelled Artificial
Intelligence (AI) to new heights, enabling breakthroughs in various tasks such
as writing assistance, code generation, and machine translation. A significant
distinction of advanced LLMs, such as ChatGPT, is their demonstrated ability to
"reason." However, evaluating the reasoning ability of LLMs remains a challenge
as most existing evaluations focus on their accuracy on the downstream tasks
rather than directly assessing their reasoning processes. Efforts have been
made to develop benchmarks and metrics to assess reasoning in LLMs, but they
suffer from data leakage or limited scope. In this paper, we introduce
LogicAsker, an automatic approach that comprehensively evaluates and improves
the logical reasoning abilities of LLMs under a set of atomic reasoning skills
based on propositional and predicate logic. The results provide insights into
LLMs' reasoning abilities and reveal the logical rules the LLMs did not learn
well. We evaluate LogicAsker on six widely deployed LLMs, including GPT-3,
ChatGPT, GPT-4, Bard, Vicuna, and Guanaco. The results show that test cases
from LogicAsker can find logical reasoning failures in different LLMs with a
rate of 25\% - 94\%. In addition, the test cases of LogicAsker can be further
used to design demonstration examples for in-context learning, which
effectively improves the logical reasoning ability of LLMs, e.g., 10\% for
GPT-4. As far as we know, our work is the first to create prompts based on
testing results to improve LLMs' formal reasoning ability effectively. All the
code, data, and results will be released for reproduction and future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、AI(Artificial Intelligence)を新たな高度に推進し、書き込み支援、コード生成、機械翻訳といった様々なタスクにおけるブレークスルーを可能にした。
ChatGPTのような高度なLLMの顕著な区別は、それらが「理性」を示す能力である。
しかし, LLMの推論能力の評価は, 既存の評価では, 推論プロセスを直接評価するのではなく, 下流タスクの精度に重点を置いているため, 依然として課題である。
LLMの推論を評価するためのベンチマークやメトリクスの開発が試みられているが、それらはデータ漏洩や限られた範囲に悩まされている。
本稿では,命題論理と述語論理に基づく一組の原子推論スキルの下で,llmの論理推論能力を包括的に評価・改善する自動アプローチであるlogicaskerを提案する。
結果はLLMの推論能力に関する洞察を与え、LLMがうまく学ばなかった論理的ルールを明らかにする。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、logicaskerのテストケースは、25\% - 94\%のレートで異なるllmで論理的推論の失敗を見つけることができる。
さらに、LogicAskerのテストケースは、GPT-4の10\%のように、LLMの論理的推論能力を効果的に向上するインコンテキスト学習の例を設計するためにさらに使用できる。
私たちの知る限り、llmsの正式な推論能力を改善するために、テスト結果に基づいてプロンプトを作成するのは私たちの仕事が初めてです。
すべてのコード、データ、結果は、再生と将来の研究のためにリリースされます。
関連論文リスト
- Lost in the Logic: An Evaluation of Large Language Models' Reasoning Capabilities on LSAT Logic Games [0.0]
法学校入学試験(LSAT)における大規模言語モデル(LLM)の性能評価
論理ゲームとその関連メタデータのデータセットを構築し、Chain-of-Thoughtプロンプト設定においてLLMの性能を広範囲に評価する。
私は、モデルがより良いか悪いかを示す論理ゲームの種類と、人間のアノテーションから観察する論理エラーのタイプを分析します。
論文 参考訳(メタデータ) (2024-09-23T21:37:40Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。