論文の概要: Enhancing Quantitative Reasoning Skills of Large Language Models through
Dimension Perception
- arxiv url: http://arxiv.org/abs/2312.17532v1
- Date: Fri, 29 Dec 2023 09:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 10:15:47.041383
- Title: Enhancing Quantitative Reasoning Skills of Large Language Models through
Dimension Perception
- Title(参考訳): 次元知覚による大規模言語モデルの量的推論能力の向上
- Authors: Yuncheng Huang, Qianyu He, Jiaqing Liang, Sihang Jiang, Yanghua Xiao
and Yunwen Chen
- Abstract要約: 我々は次元の概念が量を理解するのに不可欠であると主張する。
本稿では,次元知覚に基づく言語モデルの定量的推論能力を高める枠組みを提案する。
- 参考スコア(独自算出の注目度): 45.26805543017572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantities are distinct and critical components of texts that characterize
the magnitude properties of entities, providing a precise perspective for the
understanding of natural language, especially for reasoning tasks. In recent
years, there has been a flurry of research on reasoning tasks based on large
language models (LLMs), most of which solely focus on numerical values,
neglecting the dimensional concept of quantities with units despite its
importance. We argue that the concept of dimension is essential for precisely
understanding quantities and of great significance for LLMs to perform
quantitative reasoning. However, the lack of dimension knowledge and
quantity-related benchmarks has resulted in low performance of LLMs. Hence, we
present a framework to enhance the quantitative reasoning ability of language
models based on dimension perception. We first construct a dimensional unit
knowledge base (DimUnitKB) to address the knowledge gap in this area. We
propose a benchmark DimEval consisting of seven tasks of three categories to
probe and enhance the dimension perception skills of LLMs. To evaluate the
effectiveness of our methods, we propose a quantitative reasoning task and
conduct experiments. The experimental results show that our dimension
perception method dramatically improves accuracy (43.55%->50.67%) on
quantitative reasoning tasks compared to GPT-4.
- Abstract(参考訳): 量は、エンティティのマグニチュード特性を特徴づけるテキストの個別で重要な要素であり、特に推論タスクにおいて自然言語を理解するための正確な視点を提供する。
近年、大言語モデル(llm)に基づく推論タスクの研究が盛んに行われており、そのほとんどは数値だけに焦点を当てており、その重要性にもかかわらず量と単位の次元概念を無視している。
我々は、次元の概念は量を理解するのに不可欠であり、LLMが量的推論を行うのに非常に重要であると論じる。
しかし、次元知識と量関連ベンチマークの欠如により、LLMの性能は低下した。
そこで,我々は,次元知覚に基づく言語モデルの量的推論能力を高める枠組みを提案する。
まず,この領域の知識ギャップに対処するため,次元単位知識ベース(DimUnitKB)を構築した。
本研究では,llmの次元知覚スキルを探究し,向上させるために,3つのカテゴリからなる7つのタスクからなるベンチマークディメバルを提案する。
本手法の有効性を評価するために,定量的推論タスクを提案し,実験を行う。
その結果, GPT-4と比較して, 定量的推論の精度(43.55%~50.67%)が劇的に向上することがわかった。
関連論文リスト
- Vision Language Models Know Law of Conservation without Understanding More-or-Less [9.268588981925234]
我々は、ビジョン言語モデルに保存が出現したかどうかを評価するためにConserveBenchを使用します。
VLMは一般に保存できるが、非変換タスクでは失敗する傾向がある。
これは、少なくとも具体的な領域において、保存の法則が、量の概念的な理解なしに存在することを示唆している。
論文 参考訳(メタデータ) (2024-10-01T02:15:49Z) - Reasoning about concepts with LLMs: Inconsistencies abound [13.042591838719936]
大きな言語モデル(LLM)は、しばしばその知識に重大な矛盾を示し、示す。
特に,多種多種多種多種多様のLCMの軽量化を図り,その性能を著しく向上させることができた。
論文 参考訳(メタデータ) (2024-05-30T15:38:54Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Can Language Models Act as Knowledge Bases at Scale? [24.99538360485476]
大規模言語モデル(LLM)は、複雑なクエリに対する応答の理解と生成に顕著な習熟性を示している。
本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模知識を効果的に保存し,リコールし,理性を持つことができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-02-22T04:20:14Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。