論文の概要: Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons
- arxiv url: http://arxiv.org/abs/2506.23128v1
- Date: Sun, 29 Jun 2025 07:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.730017
- Title: Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons
- Title(参考訳): 大規模言語モデルでは深い関係推論が可能か? : DeepSeek-R1とベンチマークによる考察
- Authors: Chi Chiu So, Yueyue Sun, Jun-Min Wang, Siu Pang Yung, Anthony Wai Keung Loh, Chun Pong Chau,
- Abstract要約: 3つの最先端大規模言語モデル(LLM)の推論能力の評価と比較を行った。
DeepSeek-R1は、複数のタスクと問題サイズにまたがる最高F1スコアを一貫して達成している。
DeepSeek-R1の長時間の連鎖反応の詳細な分析により、独自の計画と検証戦略が明らかになった。
- 参考スコア(独自算出の注目度): 11.429641860623143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How far are Large Language Models (LLMs) in performing deep relational reasoning? In this paper, we evaluate and compare the reasoning capabilities of three cutting-edge LLMs, namely, DeepSeek-R1, DeepSeek-V3 and GPT-4o, through a suite of carefully designed benchmark tasks in family tree and general graph reasoning. Our experiments reveal that DeepSeek-R1 consistently achieves the highest F1-scores across multiple tasks and problem sizes, demonstrating strong aptitude in logical deduction and relational inference. However, all evaluated models, including DeepSeek-R1, struggle significantly as problem complexity increases, largely due to token length limitations and incomplete output structures. A detailed analysis of DeepSeek-R1's long Chain-of-Thought responses uncovers its unique planning and verification strategies, but also highlights instances of incoherent or incomplete reasoning, calling attention to the need for deeper scrutiny into LLMs' internal inference dynamics. We further discuss key directions for future work, including the role of multimodal reasoning and the systematic examination of reasoning failures. Our findings provide both empirical insights and theoretical implications for advancing LLMs' reasoning abilities, particularly in tasks that demand structured, multi-step logical inference. Our code repository will be publicly available at https://github.com/kelvinhkcs/Deep-Relational-Reasoning.
- Abstract(参考訳): 深いリレーショナル推論を行う上で,LLM(Large Language Models)はどの程度の距離にあるのか?
本稿では,3つの最先端LCM,すなわちDeepSeek-R1,DeepSeek-V3,GPT-4oの推論機能について,ファミリーツリーと一般グラフの推論において慎重に設計されたベンチマークタスクを用いて評価・比較する。
実験の結果,DeepSeek-R1は複数のタスクや問題サイズにまたがる高いF1スコアを一貫して達成し,論理的推論や関係推論に強い適性を示すことがわかった。
しかし、DeepSeek-R1を含むすべての評価モデルは、トークン長の制限と不完全な出力構造のために、問題の複雑さが増大するにつれて、大幅に苦労する。
DeepSeek-R1の長時間の連鎖反応の詳細な分析では、そのユニークな計画と検証戦略が明らかになったが、不整合性や不完全推論の事例も強調され、LLMの内部推論ダイナミクスのより深い調査の必要性が指摘されている。
さらに、マルチモーダル推論の役割や、推論失敗の系統的な検証など、今後の作業の鍵となる方向性についても論じる。
本研究は,LLMの推論能力,特に構造化された多段階論理推論を必要とするタスクにおいて,経験的洞察と理論的意味の両方を提供する。
私たちのコードリポジトリはhttps://github.com/kelvinhkcs/Deep-Relational-Reasoning.comで公開されます。
関連論文リスト
- PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning [31.805726635329595]
本稿では,DeepSeek-R1の思考長,長期的・紛らわしい文脈の管理,文化的・安全性に関する影響と制御性について検討する。
DeepSeek-R1には、余分な推論時間によってモデルパフォーマンスが損なわれるような推論の‘スイートスポット’がある。
また、DeepSeek-R1の安全性上の脆弱性は、非合理的な脆弱性と比べても大きい。
論文 参考訳(メタデータ) (2025-04-02T00:36:08Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。