論文の概要: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
- arxiv url: http://arxiv.org/abs/2510.08800v1
- Date: Thu, 09 Oct 2025 20:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.708893
- Title: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
- Title(参考訳): マルチホップ推論の視点からの中国語コモンセンス推論のベンチマーク
- Authors: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang,
- Abstract要約: 我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
- 参考スコア(独自算出の注目度): 53.594353527056775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度な推論能力を示したが、中国語の文脈における包括的な評価はまだ検討されていない。
このギャップを埋めるために,中国固有の事実知識と多段階論理的推論を組み込むLLMの能力を評価するために設計された,新しいベンチマークであるChina Commonsense Multi-hop Reasoning (CCMOR)を提案する。
具体的には、まず既存のQAデータセットからドメインバランスの取れたシードを構築し、次にLLMを用いたパイプラインを開発し、実際のユニットチェーンに固定されたマルチホップ質問を生成する。
得られたデータセットの品質を保証するために、我々は、ドメインの専門家が生成した質問を体系的に検証し、洗練するヒューマン・イン・ザ・ループ・検証システムを実装した。
CCMORを用いて,LLMが長い知識を処理し,知識集約的推論を行う能力の持続的制限を実証し,最先端のLCMを評価した。
特に、検索強化生成はこれらの知識ギャップを大幅に軽減し、大幅な性能向上をもたらす。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Retrieval-Augmented Chain-of-Thought in Semi-structured Domains [10.417698947670564]
大規模言語モデル(LLM)は、印象的な言語理解とコンテキスト内学習能力を示している。
本研究は,法的・財務的データの半構造化特性を活用し,関連文脈を効率的に検索することを目的とする。
結果として得られるシステムは、現代のモデルよりも優れており、また、回答に有用な説明を提供する。
論文 参考訳(メタデータ) (2023-10-22T22:45:14Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。