論文の概要: The Larger They Are, the Harder They Fail: Language Models do not
Recognize Identifier Swaps in Python
- arxiv url: http://arxiv.org/abs/2305.15507v1
- Date: Wed, 24 May 2023 18:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:00:57.645303
- Title: The Larger They Are, the Harder They Fail: Language Models do not
Recognize Identifier Swaps in Python
- Title(参考訳): 大きくなればなるほど失敗しにくくなる - 言語モデルはpythonの識別子スワップを認識しない
- Authors: Antonio Valerio Miceli-Barone, Fazl Barez, Ioannis Konstas, Shay B.
Cohen
- Abstract要約: 大規模言語モデル(LLM)は、コード生成タスクにうまく適用されている。
デフォルト関数名がスワップされた場合、LLMは正しいPythonコードを生成することができないことを示す。
モデルのサイズが大きくなるにつれて、それらのいくつかは誤った予測に自信を持つようになる。
- 参考スコア(独自算出の注目度): 34.13276581200455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have successfully been applied to code
generation tasks, raising the question of how well these models understand
programming. Typical programming languages have invariances and equivariances
in their semantics that human programmers intuitively understand and exploit,
such as the (near) invariance to the renaming of identifiers. We show that LLMs
not only fail to properly generate correct Python code when default function
names are swapped, but some of them even become more confident in their
incorrect predictions as the model size increases, an instance of the recently
discovered phenomenon of Inverse Scaling, which runs contrary to the commonly
observed trend of increasing prediction quality with increasing model size. Our
findings indicate that, despite their astonishing typical-case performance,
LLMs still lack a deep, abstract understanding of the content they manipulate,
making them unsuitable for tasks that statistically deviate from their training
data, and that mere scaling is not enough to achieve such capability.
- Abstract(参考訳): 大規模な言語モデル(llm)がコード生成タスクにうまく適用され、これらのモデルがプログラミングをどのように理解しているかという疑問が提起された。
典型的なプログラミング言語は、人間のプログラマが直感的に理解し、悪用する意味論において不変性と等価性を持っている。
llmsは、デフォルト関数名がスワップされた時に正しいpythonコードを生成するのに失敗するだけでなく、モデルのサイズが大きくなるにつれて、不正確な予測に自信を持てなくなるものもある。
この結果から, LLMは, 驚くべき典型的性能にもかかわらず, 操作内容の深い抽象的理解に欠けており, 統計的にトレーニングデータから逸脱したタスクには適さないことが示唆された。
関連論文リスト
- Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。
これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文 参考訳(メタデータ) (2024-05-15T11:55:14Z) - Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文 参考訳(メタデータ) (2023-09-12T13:51:29Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。