論文の概要: Investigating Symbolic Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.13209v1
- Date: Tue, 21 May 2024 21:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:53:42.540333
- Title: Investigating Symbolic Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの記号能力の検討
- Authors: Neisarg Dave, Daniel Kifer, C. Lee Giles, Ankur Mali,
- Abstract要約: 本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 16.88906206735967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting techniques have significantly enhanced the capabilities of Large Language Models (LLMs) across various complex tasks, including reasoning, planning, and solving math word problems. However, most research has predominantly focused on language-based reasoning and word problems, often overlooking the potential of LLMs in handling symbol-based calculations and reasoning. This study aims to bridge this gap by rigorously evaluating LLMs on a series of symbolic tasks, such as addition, multiplication, modulus arithmetic, numerical precision, and symbolic counting. Our analysis encompasses eight LLMs, including four enterprise-grade and four open-source models, of which three have been pre-trained on mathematical tasks. The assessment framework is anchored in Chomsky's Hierarchy, providing a robust measure of the computational abilities of these models. The evaluation employs minimally explained prompts alongside the zero-shot Chain of Thoughts technique, allowing models to navigate the solution process autonomously. The findings reveal a significant decline in LLMs' performance on context-free and context-sensitive symbolic tasks as the complexity, represented by the number of symbols, increases. Notably, even the fine-tuned GPT3.5 exhibits only marginal improvements, mirroring the performance trends observed in other models. Across the board, all models demonstrated a limited generalization ability on these symbol-intensive tasks. This research underscores LLMs' challenges with increasing symbolic complexity and highlights the need for specialized training, memory and architectural adjustments to enhance their proficiency in symbol-based reasoning tasks.
- Abstract(参考訳): プロンプティング技術は、推論、計画、数学用語の問題の解決など、様々な複雑なタスクにわたって、LLM(Large Language Models)の機能を大幅に強化した。
しかしながら、ほとんどの研究は言語に基づく推論と単語の問題に重点を置いており、シンボルベースの計算や推論を扱う上でのLLMの可能性を見落としていることが多い。
本研究の目的は,加法,乗算,モジュラー算術,数値精度,記号数など,一連の記号的タスク上でLLMを厳格に評価することにより,このギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
評価フレームワークはチョムスキーの階層に固定されており、これらのモデルの計算能力の堅牢な尺度を提供する。
この評価では、ゼロショットのChain of Thoughtsテクニックと並行して、最小限に説明されたプロンプトを使用して、モデルがソリューションプロセスを自律的にナビゲートすることができる。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
特に、微調整のGPT3.5でさえ、他のモデルで観測されるパフォーマンストレンドを反映して、限界的な改善しか示さない。
ボード全体では、全てのモデルがこれらのシンボル集約的なタスクに対して限定的な一般化能力を示した。
本研究は,記号に基づく推論タスクにおける習熟度を高めるための,特別な訓練,記憶,アーキテクチャ調整の必要性を強調し,LLMの課題を浮き彫りにする。
関連論文リスト
- Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Can LLM Graph Reasoning Generalize beyond Pattern Memorization? [46.93972334344908]
我々は,大規模言語モデル (LLM) が,合成学習データにおける意味的,数値的,構造的,推論パターンを超えうるか否かを評価し,実世界のグラフベースタスクにおける有用性を向上させる。
トレーニング後のアライメントが現実世界のタスクに最も有望であるのに対して、LLMグラフの推論をパターンを超えて行うことは、依然としてオープンな研究課題である。
論文 参考訳(メタデータ) (2024-06-23T02:59:15Z) - Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models [47.129504708849446]
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的なパフォーマンスを達成する。
LLMは数学的推論ベンチマークにおいて創発的な能力を示す。
我々は,Llama 2ファミリーの3つのモデルについて,異なるシンボリック推論タスクで評価した。
論文 参考訳(メタデータ) (2024-06-05T12:22:43Z) - Puzzle Solving using Reasoning of Large Language Models: A Survey [1.9939549451457024]
本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-17T14:19:38Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。