Fugu-MT 論文翻訳(概要): Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception

論文の概要: Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception

arxiv url: http://arxiv.org/abs/2312.17532v1
Date: Fri, 29 Dec 2023 09:29:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 10:15:47.041383
Title: Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception
Title（参考訳）: 次元知覚による大規模言語モデルの量的推論能力の向上
Authors: Yuncheng Huang, Qianyu He, Jiaqing Liang, Sihang Jiang, Yanghua Xiao and Yunwen Chen
Abstract要約: 我々は次元の概念が量を理解するのに不可欠であると主張する。本稿では,次元知覚に基づく言語モデルの定量的推論能力を高める枠組みを提案する。
参考スコア（独自算出の注目度）: 45.26805543017572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantities are distinct and critical components of texts that characterize the magnitude properties of entities, providing a precise perspective for the understanding of natural language, especially for reasoning tasks. In recent years, there has been a flurry of research on reasoning tasks based on large language models (LLMs), most of which solely focus on numerical values, neglecting the dimensional concept of quantities with units despite its importance. We argue that the concept of dimension is essential for precisely understanding quantities and of great significance for LLMs to perform quantitative reasoning. However, the lack of dimension knowledge and quantity-related benchmarks has resulted in low performance of LLMs. Hence, we present a framework to enhance the quantitative reasoning ability of language models based on dimension perception. We first construct a dimensional unit knowledge base (DimUnitKB) to address the knowledge gap in this area. We propose a benchmark DimEval consisting of seven tasks of three categories to probe and enhance the dimension perception skills of LLMs. To evaluate the effectiveness of our methods, we propose a quantitative reasoning task and conduct experiments. The experimental results show that our dimension perception method dramatically improves accuracy (43.55%->50.67%) on quantitative reasoning tasks compared to GPT-4.
Abstract（参考訳）: 量は、エンティティのマグニチュード特性を特徴づけるテキストの個別で重要な要素であり、特に推論タスクにおいて自然言語を理解するための正確な視点を提供する。近年、大言語モデル(llm)に基づく推論タスクの研究が盛んに行われており、そのほとんどは数値だけに焦点を当てており、その重要性にもかかわらず量と単位の次元概念を無視している。我々は、次元の概念は量を理解するのに不可欠であり、LLMが量的推論を行うのに非常に重要であると論じる。しかし、次元知識と量関連ベンチマークの欠如により、LLMの性能は低下した。そこで,我々は,次元知覚に基づく言語モデルの量的推論能力を高める枠組みを提案する。まず,この領域の知識ギャップに対処するため,次元単位知識ベース(DimUnitKB)を構築した。本研究では,llmの次元知覚スキルを探究し,向上させるために,3つのカテゴリからなる7つのタスクからなるベンチマークディメバルを提案する。本手法の有効性を評価するために,定量的推論タスクを提案し,実験を行う。その結果, GPT-4と比較して, 定量的推論の精度(43.55%～50.67%)が劇的に向上することがわかった。

関連論文リスト

Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study [50.065744358362345]
大規模言語モデル(LLM)は、数学、コーディング、推論といったタスクにまたがる印象的な機能を示している。しかし、彼らの学習能力は、動的環境に適応し、新しい知識を得るのに不可欠であり、まだ過小評価されていない。
論文参考訳（メタデータ） (2025-06-16T13:24:50Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文参考訳（メタデータ） (2025-03-14T16:26:11Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Vision Language Models Know Law of Conservation without Understanding More-or-Less [9.268588981925234]
我々は、ビジョン言語モデルに保存が出現したかどうかを評価するためにConserveBenchを使用します。 VLMは一般に保存できるが、非変換タスクでは失敗する傾向がある。これは、少なくとも具体的な領域において、保存の法則が、量の概念的な理解なしに存在することを示唆している。
論文参考訳（メタデータ） (2024-10-01T02:15:49Z)
Reasoning about concepts with LLMs: Inconsistencies abound [13.042591838719936]
大きな言語モデル(LLM)は、しばしばその知識に重大な矛盾を示し、示す。特に,多種多種多種多種多様のLCMの軽量化を図り,その性能を著しく向上させることができた。
論文参考訳（メタデータ） (2024-05-30T15:38:54Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Can Language Models Act as Knowledge Bases at Scale? [24.99538360485476]
大規模言語モデル(LLM)は、複雑なクエリに対する応答の理解と生成に顕著な習熟性を示している。本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模知識を効果的に保存し,リコールし,理性を持つことができるかどうかを考察する。
論文参考訳（メタデータ） (2024-02-22T04:20:14Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
From Understanding to Utilization: A Survey on Explainability for Large Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文参考訳（メタデータ） (2024-01-23T16:09:53Z)
Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文参考訳（メタデータ） (2023-12-30T04:51:46Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-05-28T13:00:00Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。