論文の概要: Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07064v1
- Date: Sun, 08 Jun 2025 09:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.657724
- Title: Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models
- Title(参考訳): Com$^2$:大規模言語モデルにおける複合コモンセンス推論のための因果型ベンチマーク
- Authors: Kai Xiong, Xiao Ding, Yixin Cao, Yuxiong Yan, Li Du, Yufei Zhang, Jinglong Gao, Jiaqian Liu, Bing Qin, Ting Liu,
- Abstract要約: 大規模言語モデル(LLM)は、事前学習を通じて豊富な単純で明示的なコモンセンス知識を習得している。
LLMは単純な知識から派生した複雑で暗黙的なコモンセンスの知識を推論するのに苦労する。
複素コモンセンス推論に着目したベンチマークCom$2$を提案する。
- 参考スコア(独自算出の注目度): 40.47361817762135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have mastered abundant simple and explicit commonsense knowledge through pre-training, enabling them to achieve human-like performance in simple commonsense reasoning. Nevertheless, LLMs struggle to reason with complex and implicit commonsense knowledge that is derived from simple ones (such as understanding the long-term effects of certain events), an aspect humans tend to focus on more. Existing works focus on complex tasks like math and code, while complex commonsense reasoning remains underexplored due to its uncertainty and lack of structure. To fill this gap and align with real-world concerns, we propose a benchmark Com$^2$ focusing on complex commonsense reasoning. We first incorporate causal event graphs to serve as structured complex commonsense. Then we adopt causal theory~(e.g., intervention) to modify the causal event graphs and obtain different scenarios that meet human concerns. Finally, an LLM is employed to synthesize examples with slow thinking, which is guided by the logical relationships in the modified causal graphs. Furthermore, we use detective stories to construct a more challenging subset. Experiments show that LLMs struggle in reasoning depth and breadth, while post-training and slow thinking can alleviate this. The code and data are available at https://github.com/Waste-Wood/Com2.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前学習を通じて豊富な単純で明示的なコモンセンス知識を習得し、単純なコモンセンス推論において人間のような性能を達成することができる。
それでもLLMは、単純な知識(特定の事象の長期的な影響を理解するなど)から派生した複雑で暗黙的なコモンセンスの知識を推論するのに苦労している。
既存の研究は数学やコードのような複雑なタスクに重点を置いているが、複雑なコモンセンス推論は、その不確実性や構造が欠如していることから、未解明のままである。
このギャップを埋め、現実世界の懸念に合わせるために、複雑なコモンセンス推論に焦点を当てたベンチマークCom$^2$を提案する。
まず、因果事象グラフを構造化された複素コモンセンスとして機能させる。
次に、因果理論~(例えば介入)を採用し、因果事象グラフを変更し、人間の懸念を満たす様々なシナリオを得る。
最後に、LLMは、修正された因果グラフの論理的関係によって導かれる遅い思考で例を合成するために用いられる。
さらに、より困難なサブセットを構築するために、探偵ストーリーを使用します。
実験の結果、LLMは深度や幅の推理に苦しむ一方で、ポストトレーニングやスロー思考がこれを緩和することが示された。
コードとデータはhttps://github.com/Waste-Wood/Com2.comから入手できる。
関連論文リスト
- COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。
出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。
提案手法は,膨大な因果クエリ作成を容易にする。
論文 参考訳(メタデータ) (2024-11-29T06:37:13Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。