論文の概要: Go Beyond The Obvious: Probing the gap of INFORMAL reasoning ability
between Humanity and LLMs by Detective Reasoning Puzzle Benchmark
- arxiv url: http://arxiv.org/abs/2307.05113v2
- Date: Wed, 9 Aug 2023 12:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:10:00.268315
- Title: Go Beyond The Obvious: Probing the gap of INFORMAL reasoning ability
between Humanity and LLMs by Detective Reasoning Puzzle Benchmark
- Title(参考訳): Go Beyond The Obvious: Detective Reasoning Puzzle Benchmarkによる人文科学とLLMの非形式的推論能力のギャップを探る
- Authors: Zhouhon Gu, Zihan Li, Lin Zhang, Zhuozhi Xiong, Haoning Ye, Yikai
Zhang, Wenhao Huang, Xiaoxuan Zhu, Qianyu He, Rui Xu, Sihang Jiang, Shusen
Wang, Zili Wang, Hongwei Feng, Zhixu Li, Yanghua Xiao
- Abstract要約: 本稿では、アクセス可能なオンラインリソースから収集した1200の質問の集合である検出推論ベンチマークを構築する。
ベンチマークの欠如によるモデル非公式推論能力の向上を考慮し,人間の思考を模倣したセルフクエスト・プロンプト・フレームワークを提案する。
実験結果から, 検出推論ベンチマークにおいて, 人間の性能がSoTA言語モデルよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 32.52910329977459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Informal reasoning ability is the ability to reason based on common sense,
experience, and intuition.Humans use informal reasoning every day to extract
the most influential elements for their decision-making from a large amount of
life-like information.With the rapid development of language models, the
realization of general artificial intelligence has emerged with hope. Given the
outstanding informal reasoning ability of humans, how much informal reasoning
ability language models have has not been well studied by scholars.In order to
explore the gap between humans and language models in informal reasoning
ability, this paper constructs a Detective Reasoning Benchmark, which is an
assembly of 1,200 questions gathered from accessible online resources, aims at
evaluating the model's informal reasoning ability in real-life
context.Considering the improvement of the model's informal reasoning ability
restricted by the lack of benchmark, we further propose a Self-Question Prompt
Framework that mimics human thinking to enhance the model's informal reasoning
ability.The goals of self-question are to find key elements, deeply investigate
the connections between these elements, encourage the relationship between each
element and the problem, and finally, require the model to reasonably answer
the problem.The experimental results show that human performance greatly
outperforms the SoTA Language Models in Detective Reasoning Benchmark.Besides,
Self-Question is proven to be the most effective prompt engineering in
improving GPT-4's informal reasoning ability, but it still does not even
surpass the lowest score made by human participants.Upon acceptance of the
paper, the source code for the benchmark will be made publicly accessible.
- Abstract(参考訳): インフォーマル推論能力は、常識、経験、直観に基づいて推論する能力であり、Humansは日常的に非公式な推論を使用して、大量の生命のような情報から意思決定に最も影響力のある要素を抽出し、言語モデルの急速な発展により、汎用人工知能の実現が期待されている。
Given the outstanding informal reasoning ability of humans, how much informal reasoning ability language models have has not been well studied by scholars.In order to explore the gap between humans and language models in informal reasoning ability, this paper constructs a Detective Reasoning Benchmark, which is an assembly of 1,200 questions gathered from accessible online resources, aims at evaluating the model's informal reasoning ability in real-life context.Considering the improvement of the model's informal reasoning ability restricted by the lack of benchmark, we further propose a Self-Question Prompt Framework that mimics human thinking to enhance the model's informal reasoning ability.The goals of self-question are to find key elements, deeply investigate the connections between these elements, encourage the relationship between each element and the problem, and finally, require the model to reasonably answer the problem.The experimental results show that human performance greatly outperforms the SoTA Language Models in Detective Reasoning Benchmark.Besides, Self-Question is proven to be the most effective prompt engineering in improving GPT-4's informal reasoning ability, but it still does not even surpass the lowest score made by human participants.Upon acceptance of the paper, the source code for the benchmark will be made publicly accessible.
関連論文リスト
- UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [65.07706249058549]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは自然言語の説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Language Models as Inductive Reasoners [125.99461874008703]
本稿では,帰納的推論のための新しいパラダイム(タスク)を提案し,自然言語の事実から自然言語規則を誘導する。
タスクのための1.2kルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。
我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文 参考訳(メタデータ) (2022-12-21T11:12:14Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Tiered Reasoning for Intuitive Physics: Toward Verifiable Commonsense
Language Understanding [11.520156387997206]
Tiered Reasoning for Intuitive Physics (TRIP) は、高密度アノテーションを用いた新しい常識推論データセットである。
実験の結果,大規模なLMは高い性能を達成できるが,有効に裏付ける証拠が得られず,予測を支援するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2021-09-10T15:47:22Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Social Commonsense Reasoning with Multi-Head Knowledge Attention [24.70946979449572]
社会的コモンセンス推論には、テキストの理解、社会イベントに関する知識、その実践的な意味、およびコモンセンス推論スキルが必要である。
本稿では,半構造化コモンセンス推論規則を符号化し,それをトランスフォーマーベースの推論セルに組み込むことを学習する,新しいマルチヘッド知識アテンションモデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T10:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。