Fugu-MT 論文翻訳(概要): Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons

論文の概要: Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons

arxiv url: http://arxiv.org/abs/2506.23128v1
Date: Sun, 29 Jun 2025 07:37:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.730017
Title: Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons
Title（参考訳）: 大規模言語モデルでは深い関係推論が可能か? : DeepSeek-R1とベンチマークによる考察
Authors: Chi Chiu So, Yueyue Sun, Jun-Min Wang, Siu Pang Yung, Anthony Wai Keung Loh, Chun Pong Chau,
Abstract要約: 3つの最先端大規模言語モデル(LLM)の推論能力の評価と比較を行った。 DeepSeek-R1は、複数のタスクと問題サイズにまたがる最高F1スコアを一貫して達成している。 DeepSeek-R1の長時間の連鎖反応の詳細な分析により、独自の計画と検証戦略が明らかになった。
参考スコア（独自算出の注目度）: 11.429641860623143
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How far are Large Language Models (LLMs) in performing deep relational reasoning? In this paper, we evaluate and compare the reasoning capabilities of three cutting-edge LLMs, namely, DeepSeek-R1, DeepSeek-V3 and GPT-4o, through a suite of carefully designed benchmark tasks in family tree and general graph reasoning. Our experiments reveal that DeepSeek-R1 consistently achieves the highest F1-scores across multiple tasks and problem sizes, demonstrating strong aptitude in logical deduction and relational inference. However, all evaluated models, including DeepSeek-R1, struggle significantly as problem complexity increases, largely due to token length limitations and incomplete output structures. A detailed analysis of DeepSeek-R1's long Chain-of-Thought responses uncovers its unique planning and verification strategies, but also highlights instances of incoherent or incomplete reasoning, calling attention to the need for deeper scrutiny into LLMs' internal inference dynamics. We further discuss key directions for future work, including the role of multimodal reasoning and the systematic examination of reasoning failures. Our findings provide both empirical insights and theoretical implications for advancing LLMs' reasoning abilities, particularly in tasks that demand structured, multi-step logical inference. Our code repository will be publicly available at https://github.com/kelvinhkcs/Deep-Relational-Reasoning.
Abstract（参考訳）: 深いリレーショナル推論を行う上で,LLM(Large Language Models)はどの程度の距離にあるのか? 本稿では,3つの最先端LCM,すなわちDeepSeek-R1,DeepSeek-V3,GPT-4oの推論機能について,ファミリーツリーと一般グラフの推論において慎重に設計されたベンチマークタスクを用いて評価・比較する。実験の結果,DeepSeek-R1は複数のタスクや問題サイズにまたがる高いF1スコアを一貫して達成し,論理的推論や関係推論に強い適性を示すことがわかった。しかし、DeepSeek-R1を含むすべての評価モデルは、トークン長の制限と不完全な出力構造のために、問題の複雑さが増大するにつれて、大幅に苦労する。 DeepSeek-R1の長時間の連鎖反応の詳細な分析では、そのユニークな計画と検証戦略が明らかになったが、不整合性や不完全推論の事例も強調され、LLMの内部推論ダイナミクスのより深い調査の必要性が指摘されている。さらに、マルチモーダル推論の役割や、推論失敗の系統的な検証など、今後の作業の鍵となる方向性についても論じる。本研究は,LLMの推論能力,特に構造化された多段階論理推論を必要とするタスクにおいて,経験的洞察と理論的意味の両方を提供する。私たちのコードリポジトリはhttps://github.com/kelvinhkcs/Deep-Relational-Reasoning.comで公開されます。

関連論文リスト

From Query to Logic: Ontology-Driven Multi-Hop Reasoning in LLMs [3.828692258888057]
我々は、LLMの生成能力と知識グラフの構造的利点を組み合わせたトレーニングなしのフレームワークである**ORACLE* (**O**ntology-driven **R**easoning **A**nd **C*hain for **L*ogical **E**ucidationを提案する。実験の結果,私たちのフレームワークは,DeepSeek-R1のような最先端モデルに匹敵する,論理的に高い競争力を持つことがわかった。
論文参考訳（メタデータ） (2025-08-02T16:12:42Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning [31.805726635329595]
本稿では,DeepSeek-R1の思考長,長期的・紛らわしい文脈の管理,文化的・安全性に関する影響と制御性について検討する。 DeepSeek-R1には、余分な推論時間によってモデルパフォーマンスが損なわれるような推論の‘スイートスポット’がある。また、DeepSeek-R1の安全性上の脆弱性は、非合理的な脆弱性と比べても大きい。
論文参考訳（メタデータ） (2025-04-02T00:36:08Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [39.781889862599854]
ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。次に,このような特徴を持つLong CoTの出現や,過度な考察,推論時間スケーリングなどの重要な現象について検討する。
論文参考訳（メタデータ） (2025-03-12T17:35:03Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。 DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。 DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文参考訳（メタデータ） (2025-01-22T15:19:35Z)
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。 GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文参考訳（メタデータ） (2024-06-24T23:02:56Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation [13.887376297334258]
自然言語で表現された多段階推論のための反復型ニューラルネットワークであるIMA-GloVe-GAを紹介する。本モデルでは,RNNに基づく反復型メモリニューラルネットワークを用いて推論を行う。
論文参考訳（メタデータ） (2022-07-28T10:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。