論文の概要: Assessing Code Generation with Intermediate Languages
- arxiv url: http://arxiv.org/abs/2407.05411v1
- Date: Sun, 7 Jul 2024 15:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:47:49.310559
- Title: Assessing Code Generation with Intermediate Languages
- Title(参考訳): 中間言語によるコード生成の評価
- Authors: Xun Deng, Sicheng Zhong, Honghua Dong, Jingyu Hu, Sidi Mohamed Beillahi, Xujie Si, Fan Long,
- Abstract要約: 本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 6.999311675957218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intermediate step methodologies like chain of thoughts (COT) have demonstrated effectiveness in enhancing the performance of Large Language Models (LLMs) on code generation. This study explores the utilization of intermediate languages, including various programming languages, natural language solutions, and pseudo-code, and systematically evaluates their impact on the performance of LLMs in code generation tasks. Our experiments encompass eleven models across the CodeLlama, GPT, and Mistral families, as well as newly released smaller models. Our findings reveal that intermediate languages generally exhibit greater efficacy in larger models that have not yet achieved state-of-the-art performance. Natural language consistently emerges as the most effective intermediate representation across all target languages. However, we observe no universally effective intermediate formal language across different models and target languages. Furthermore, we uncover a weak correlation between the correctness of intermediate solutions and final generation, suggesting that improvements may stem from the chain-of-thought effect rather than language-specific transfer. Interestingly, we discover that for GPT family models, prompting multiple times without explicit self-correction instructions yields performance gains across the studied languages.
- Abstract(参考訳): 思考の連鎖(COT)のような中間段階の方法論は、コード生成におけるLLM(Large Language Models)の性能向上に有効であることを示した。
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討し、コード生成タスクにおけるLLMの性能への影響を体系的に評価する。
実験では、CodeLlama、GPT、Mistralファミリーにまたがる11のモデルと、新たにリリースされた小さなモデルを含む。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
自然言語は、全ての対象言語にまたがる最も効果的な中間表現として一貫して現れる。
しかし、異なるモデルと対象言語にまたがって、普遍的に有効な中間形式言語は見つからない。
さらに,中間解の正しさと最終生成との間には弱い相関関係がみられ,改良は言語固有の伝達よりも連鎖効果に由来する可能性が示唆された。
興味深いことに、GPTファミリーモデルでは、明示的な自己補正命令を伴わずに複数回実行することで、学習言語間で性能が向上することを発見した。
関連論文リスト
- Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Interpretability of Language Models via Task Spaces [14.543168558734001]
本稿では,解釈言語モデル (LM) の代替手法を提案する。
我々は、LM処理の品質に焦点を合わせ、言語能力に焦点をあてる。
言語現象間の関係を照らす「言語的タスク空間」を構築した。
論文 参考訳(メタデータ) (2024-06-10T16:34:30Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。