Fugu-MT 論文翻訳(概要): Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models

論文の概要: Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2506.07064v1
Date: Sun, 08 Jun 2025 09:53:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.657724
Title: Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models
Title（参考訳）: Com$^2$:大規模言語モデルにおける複合コモンセンス推論のための因果型ベンチマーク
Authors: Kai Xiong, Xiao Ding, Yixin Cao, Yuxiong Yan, Li Du, Yufei Zhang, Jinglong Gao, Jiaqian Liu, Bing Qin, Ting Liu,
Abstract要約: 大規模言語モデル(LLM)は、事前学習を通じて豊富な単純で明示的なコモンセンス知識を習得している。 LLMは単純な知識から派生した複雑で暗黙的なコモンセンスの知識を推論するのに苦労する。複素コモンセンス推論に着目したベンチマークCom$2$を提案する。
参考スコア（独自算出の注目度）: 40.47361817762135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have mastered abundant simple and explicit commonsense knowledge through pre-training, enabling them to achieve human-like performance in simple commonsense reasoning. Nevertheless, LLMs struggle to reason with complex and implicit commonsense knowledge that is derived from simple ones (such as understanding the long-term effects of certain events), an aspect humans tend to focus on more. Existing works focus on complex tasks like math and code, while complex commonsense reasoning remains underexplored due to its uncertainty and lack of structure. To fill this gap and align with real-world concerns, we propose a benchmark Com$^2$ focusing on complex commonsense reasoning. We first incorporate causal event graphs to serve as structured complex commonsense. Then we adopt causal theory~(e.g., intervention) to modify the causal event graphs and obtain different scenarios that meet human concerns. Finally, an LLM is employed to synthesize examples with slow thinking, which is guided by the logical relationships in the modified causal graphs. Furthermore, we use detective stories to construct a more challenging subset. Experiments show that LLMs struggle in reasoning depth and breadth, while post-training and slow thinking can alleviate this. The code and data are available at https://github.com/Waste-Wood/Com2.
Abstract（参考訳）: 大規模言語モデル(LLM)は、事前学習を通じて豊富な単純で明示的なコモンセンス知識を習得し、単純なコモンセンス推論において人間のような性能を達成することができる。それでもLLMは、単純な知識(特定の事象の長期的な影響を理解するなど)から派生した複雑で暗黙的なコモンセンスの知識を推論するのに苦労している。既存の研究は数学やコードのような複雑なタスクに重点を置いているが、複雑なコモンセンス推論は、その不確実性や構造が欠如していることから、未解明のままである。このギャップを埋め、現実世界の懸念に合わせるために、複雑なコモンセンス推論に焦点を当てたベンチマークCom$^2$を提案する。まず、因果事象グラフを構造化された複素コモンセンスとして機能させる。次に、因果理論~(例えば介入)を採用し、因果事象グラフを変更し、人間の懸念を満たす様々なシナリオを得る。最後に、LLMは、修正された因果グラフの論理的関係によって導かれる遅い思考で例を合成するために用いられる。さらに、より困難なサブセットを構築するために、探偵ストーリーを使用します。実験の結果、LLMは深度や幅の推理に苦しむ一方で、ポストトレーニングやスロー思考がこれを緩和することが示された。コードとデータはhttps://github.com/Waste-Wood/Com2.comから入手できる。

関連論文リスト

COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。提案手法は,膨大な因果クエリ作成を容易にする。
論文参考訳（メタデータ） (2024-11-29T06:37:13Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文参考訳（メタデータ） (2024-04-09T14:40:08Z)
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。 COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文参考訳（メタデータ） (2024-03-12T08:13:52Z)
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T03:38:51Z)
CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文参考訳（メタデータ） (2023-12-07T15:12:12Z)
Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文参考訳（メタデータ） (2023-10-13T14:53:06Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。