論文の概要: Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?
- arxiv url: http://arxiv.org/abs/2410.06735v1
- Date: Wed, 9 Oct 2024 10:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:50:25.930518
- Title: Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?
- Title(参考訳): 事前学習段階におけるどのプログラミング言語と特徴が下流の論理推論性能に影響を及ぼすか?
- Authors: Fumiya Uchiyama, Takeshi Kojima, Andrew Gambardella, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 大規模言語モデル(LLM)は、数学や論理的推論タスクにおいて顕著な一般化能力を示している。
本研究の目的は,事前学習中の言語と特徴が論理推論性能にどのような影響を及ぼすかを検証することである。
- 参考スコア(独自算出の注目度): 26.91104188917787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have demonstrated remarkable generalization abilities in mathematics and logical reasoning tasks. Prior research indicates that LLMs pre-trained with programming language data exhibit high mathematical and reasoning abilities; however, this causal relationship has not been rigorously tested. Our research aims to verify which programming languages and features during pre-training affect logical inference performance. Specifically, we pre-trained decoder-based language models from scratch using datasets from ten programming languages (e.g., Python, C, Java) and three natural language datasets (Wikipedia, Fineweb, C4) under identical conditions. Thereafter, we evaluated the trained models in a few-shot in-context learning setting on logical reasoning tasks: FLD and bAbi, which do not require commonsense or world knowledge. The results demonstrate that nearly all models trained with programming languages consistently outperform those trained with natural languages, indicating that programming languages contain factors that elicit logic inference performance. In addition, we found that models trained with programming languages exhibit a better ability to follow instructions compared to those trained with natural languages. Further analysis reveals that the depth of Abstract Syntax Trees representing parsed results of programs also affects logical reasoning performance. These findings will offer insights into the essential elements of pre-training for acquiring the foundational abilities of LLMs.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は数学や論理的推論タスクにおいて顕著な一般化能力を示している。
以前の研究では、プログラミング言語データで事前訓練されたLLMは、高い数学的および推論能力を示すことが示されているが、この因果関係は厳密に検証されていない。
本研究の目的は,事前学習中の言語と特徴が論理推論性能にどのような影響を及ぼすかを検証することである。
具体的には,10のプログラミング言語(例えば,Python,C,Java)と3つの自然言語データセット(Wikipedia,Fineweb,C4)のデータセットを用いて,スクラッチからデコーダベースの言語モデルを事前訓練した。
その後、論理的推論タスク(FLD, bAbi, 常識や世界知識を必要としない)に基づいて、数発の文脈内学習環境で訓練されたモデルを評価した。
その結果、プログラミング言語で訓練されたほぼすべてのモデルが、自然言語で訓練されたモデルよりも一貫して優れており、プログラミング言語には論理推論のパフォーマンスを誘発する要因が含まれていることが示唆された。
さらに、プログラミング言語で訓練されたモデルでは、自然言語で訓練したモデルよりも、指示に従う能力が高いことがわかった。
さらに解析した結果,プログラムの構文解析結果を表す抽象構文木の深さも論理的推論性能に影響を与えることがわかった。
これらの知見は, LLMの基礎的能力を得るための事前学習の本質的要素について考察する。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Natural Language Embedded Programs for Hybrid Language Symbolic Reasoning [84.12154024070024]
本研究では,数学・記号的推論,自然言語理解,後続の課題に対処するための統合フレームワークとして,自然言語組み込みプログラム(NLEP)を提案する。
我々のアプローチは,構造化知識の自然言語表現を含むデータ構造上の関数を定義する完全なPythonプログラムを生成するよう,言語モデルに促す。
Pythonインタープリタが生成されたコードを実行し、出力をプリントする。
論文 参考訳(メタデータ) (2023-09-19T17:54:21Z) - On the Impact of Language Selection for Training and Evaluating
Programming Language Models [16.125924759649106]
CodeBERTモデルを用いて言語表現を解析することにより,プログラミング言語の類似性を評価する。
実験の結果,C++,Python,Javaなどの言語ではトークン表現が互いに近接していることが明らかとなった。
論文 参考訳(メタデータ) (2023-08-25T12:57:59Z) - Understanding Programs by Exploiting (Fuzzing) Test Cases [26.8259045248779]
プログラムのより深い意味理解を実現するために,入力と出力/振る舞いの関係を学習に取り入れることを提案する。
コードの大部分の実行をトリガーするのに十分な入力を得るために,ファズテストを採用し,ファズチューニングを提案する。
提案手法の有効性は,コードクローン検出とコード分類を含む2つのプログラム理解タスクにおいて検証され,最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-23T01:51:46Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Probing Linguistic Information For Logical Inference In Pre-trained
Language Models [2.4366811507669124]
本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。
i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報を符号化するが、弱符号化された情報もいくつか存在する。
シンボリック推論支援のためのセマンティックおよび背景知識基盤としての言語モデルの可能性を実証した。
論文 参考訳(メタデータ) (2021-12-03T07:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。