Fugu-MT 論文翻訳(概要): A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models

論文の概要: A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models

arxiv url: http://arxiv.org/abs/2401.00757v1
Date: Mon, 1 Jan 2024 13:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 15:57:16.424768
Title: A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models
Title（参考訳）: A & B == B & A:大規模言語モデルにおける論理推論失敗のトリガ
Authors: Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang, Pinjia He, Wenxiang Jiao, Michael R. Lyu
Abstract要約: LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
参考スコア（独自算出の注目度）: 65.86149763739141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in large language models (LLMs) have propelled Artificial Intelligence (AI) to new heights, enabling breakthroughs in various tasks such as writing assistance, code generation, and machine translation. A significant distinction of advanced LLMs, such as ChatGPT, is their demonstrated ability to "reason." However, evaluating the reasoning ability of LLMs remains a challenge as most existing evaluations focus on their accuracy on the downstream tasks rather than directly assessing their reasoning processes. Efforts have been made to develop benchmarks and metrics to assess reasoning in LLMs, but they suffer from data leakage or limited scope. In this paper, we introduce LogicAsker, an automatic approach that comprehensively evaluates and improves the logical reasoning abilities of LLMs under a set of atomic reasoning skills based on propositional and predicate logic. The results provide insights into LLMs' reasoning abilities and reveal the logical rules the LLMs did not learn well. We evaluate LogicAsker on six widely deployed LLMs, including GPT-3, ChatGPT, GPT-4, Bard, Vicuna, and Guanaco. The results show that test cases from LogicAsker can find logical reasoning failures in different LLMs with a rate of 25\% - 94\%. In addition, the test cases of LogicAsker can be further used to design demonstration examples for in-context learning, which effectively improves the logical reasoning ability of LLMs, e.g., 10\% for GPT-4. As far as we know, our work is the first to create prompts based on testing results to improve LLMs' formal reasoning ability effectively. All the code, data, and results will be released for reproduction and future research.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、AI(Artificial Intelligence)を新たな高度に推進し、書き込み支援、コード生成、機械翻訳といった様々なタスクにおけるブレークスルーを可能にした。 ChatGPTのような高度なLLMの顕著な区別は、それらが「理性」を示す能力である。しかし, LLMの推論能力の評価は, 既存の評価では, 推論プロセスを直接評価するのではなく, 下流タスクの精度に重点を置いているため, 依然として課題である。 LLMの推論を評価するためのベンチマークやメトリクスの開発が試みられているが、それらはデータ漏洩や限られた範囲に悩まされている。本稿では,命題論理と述語論理に基づく一組の原子推論スキルの下で,llmの論理推論能力を包括的に評価・改善する自動アプローチであるlogicaskerを提案する。結果はLLMの推論能力に関する洞察を与え、LLMがうまく学ばなかった論理的ルールを明らかにする。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。その結果、logicaskerのテストケースは、25\% - 94\%のレートで異なるllmで論理的推論の失敗を見つけることができる。さらに、LogicAskerのテストケースは、GPT-4の10\%のように、LLMの論理的推論能力を効果的に向上するインコンテキスト学習の例を設計するためにさらに使用できる。私たちの知る限り、llmsの正式な推論能力を改善するために、テスト結果に基づいてプロンプトを作成するのは私たちの仕事が初めてです。すべてのコード、データ、結果は、再生と将来の研究のためにリリースされます。

関連論文リスト

JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [9.689096888732642]
本稿では,論理的情報記述を拡張的に生成するために,命題論理を用いた論理解(LoT)プロンプトを提案する。 LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文参考訳（メタデータ） (2024-09-26T04:59:45Z)
Lost in the Logic: An Evaluation of Large Language Models' Reasoning Capabilities on LSAT Logic Games [0.0]
法学校入学試験(LSAT)における大規模言語モデル(LLM)の性能評価論理ゲームとその関連メタデータのデータセットを構築し、Chain-of-Thoughtプロンプト設定においてLLMの性能を広範囲に評価する。私は、モデルがより良いか悪いかを示す論理ゲームの種類と、人間のアノテーションから観察する論理エラーのタイプを分析します。
論文参考訳（メタデータ） (2024-09-23T21:37:40Z)
Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。 LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。 LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文参考訳（メタデータ） (2024-08-28T18:25:35Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文参考訳（メタデータ） (2024-04-04T08:38:03Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。