論文の概要: Number Cookbook: Number Understanding of Language Models and How to Improve It
- arxiv url: http://arxiv.org/abs/2411.03766v1
- Date: Wed, 06 Nov 2024 08:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:42.856308
- Title: Number Cookbook: Number Understanding of Language Models and How to Improve It
- Title(参考訳): Number Cookbook: 言語モデルの数値理解と改善方法
- Authors: Haotong Yang, Yi Hu, Shijia Kang, Zhouchen Lin, Muhan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。
本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
- 参考スコア(独自算出の注目度): 63.9542740221096
- License:
- Abstract: Large language models (LLMs) can solve an increasing number of complex reasoning tasks while making surprising mistakes in basic numerical understanding and processing (such as 9.11 > 9.9). The latter ability is essential for tackling complex arithmetic and mathematical problems and serves as a foundation for most reasoning tasks, but previous work paid little attention to it or only discussed several restricted tasks (like integer addition). In this paper, we comprehensively investigate the numerical understanding and processing ability (NUPA) of LLMs. Firstly, we introduce a benchmark covering four common numerical representations and 17 distinct numerical tasks in four major categories, resulting in 41 meaningful combinations in total. These tasks are derived from primary and secondary education curricula, encompassing nearly all everyday numerical understanding and processing scenarios, and the rules of these tasks are very simple and clear. Through the benchmark, we find that current LLMs fail frequently in many of the tasks. To study the problem, we train small models with existing and potential techniques for enhancing NUPA (such as special tokenizers, PEs, and number formats), comprehensively evaluating their effectiveness using our testbed. We also finetune practical-scale LLMs on our proposed NUPA tasks and find that 1) naive finetuning can improve NUPA a lot on many but not all tasks, and 2) surprisingly, techniques designed to enhance NUPA prove ineffective for finetuning pretrained models. We further explore the impact of chain-of-thought techniques on NUPA. Our work takes a preliminary step towards understanding and improving NUPA of LLMs. Our benchmark and code are released at https://github.com/GraphPKU/number_cookbook.
- Abstract(参考訳): 大規模言語モデル(LLM)は、基本的な数値理解と処理(9.11 > 9.9 など)において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。
後者の能力は複雑な算術や数学的問題に対処するために不可欠であり、ほとんどの推論タスクの基盤として機能するが、以前の研究はほとんど注意を払わなかったり、いくつかの制限されたタスク(整数の加算など)についてしか議論しなかった。
本稿では,LLMの数値理解と処理能力(NUPA)を包括的に検討する。
まず、4つの一般的な数値表現と17の異なる数値タスクを4つの主要なカテゴリでカバーするベンチマークを導入し、41の有意義な組み合わせを得た。
これらのタスクは初等・中等教育カリキュラムから派生したもので、日常的な数値理解と処理のシナリオをほぼすべて含んでおり、これらのタスクのルールは非常に単純で明確である。
ベンチマークにより、現在のLSMは、多くのタスクで頻繁に失敗することがわかった。
そこで本研究では,NUPA(特殊トークン化,PE,数値形式など)の強化のための既存および潜在的手法を応用した小型モデルを訓練し,テストベッドを用いてその有効性を総合的に評価する。
また、提案したNUPAタスクに実用規模のLLMを微調整し、それを見つける。
1)ヌーブファインタニングはNUPAを多くのタスクで改善するが、すべてのタスクでは改善しない。
2) 意外なことに,NUPAを向上する技術は,事前学習モデルの微調整には有効ではない。
さらに, NUPAにおけるチェーン・オブ・ソート手法の影響について検討する。
我々の研究は、LLMのNUPAの理解と改善に向けた予備的な一歩を踏み出した。
ベンチマークとコードはhttps://github.com/GraphPKU/number_cookbook.comで公開されています。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT (Chain-of-Thought) は複雑な問題を解決する重要な方法となっている。
大規模言語モデル(LLM)はドメイン固有のタスクを正確に分解するのに苦労することが多い。
本稿では,LLMタスクを能力,スキル,知識の観点から再検討する理論モデルであるRe-TASKフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z) - Teaching Algorithmic Reasoning via In-context Learning [45.45116247046013]
本研究では,大規模言語モデル (LLM) に対して,文脈内学習によりアルゴリズム推論を教えることができることを示す。
我々は,様々な算術的および定量的推論タスクに対するアプローチを評価する。
最良ベースラインと比較して,約10x,9x,5x,2xの誤差低減を実現した。
論文 参考訳(メタデータ) (2022-11-15T06:12:28Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Investigating Numeracy Learning Ability of a Text-to-Text Transfer Model [18.922352061424302]
本稿では,テキストからテキストへの移動学習モデル(T5)の数値学習能力について検討する。
数値化、等級予測、列内の最小値と最大値の探索、ソートという4つの数値処理について検討する。
T5モデルは適度に性能が良いが、4つのタスクすべてにわたる外挿設定ではかなり苦労している。
論文 参考訳(メタデータ) (2021-09-10T05:33:17Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。