論文の概要: Syntax Without Semantics: Teaching Large Language Models to Code in an Unseen Language
- arxiv url: http://arxiv.org/abs/2605.15607v1
- Date: Fri, 15 May 2026 04:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.171116
- Title: Syntax Without Semantics: Teaching Large Language Models to Code in an Unseen Language
- Title(参考訳): 意味論のない構文:目に見えない言語で大規模言語モデルにプログラミングを教える
- Authors: Vinayshekhar Bannihatti Kumar, Disha Makhija, Manoj Ghuhan Arivazhagan, Rashmi Gangadharaiah,
- Abstract要約: Pythonはすべての構成でPyLangを最大19%上回っている。
モデルは言語に依存しない理解を持っているが、馴染みのない言語では表現できない。
- 参考スコア(独自算出の注目度): 9.529147118376464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) achieve high pass rates on code generation benchmarks, yet whether they can transfer this ability to languages absent from pretraining remains poorly understood. We introduce PyLang, a minimal imperative language absent from all pretraining corpora, and evaluate frontier models zero-shot and fine-tuned Qwen3 (4B, 8B, 32B) on 352 problems. We find that fine-tuning quickly teaches syntax but fails to transfer semantic competence: Python outperforms PyLang by up to 19% across all configurations, and no intervention (multi-task learning, preference tuning, code infilling, or latent-space objectives) closes the gap. An LLM judge reveals that frontier models select an identical algorithm to Python 80% of the time, yet cannot translate it into a working PyLang implementation., and CKA analysis confirms that fine-tuned models converge to nearly identical internal representations across languages (CKA > 0.97) while diverging at the output stage. We term this the implementation fidelity gap: models possess language-agnostic algorithmic understanding but cannot express it in an unfamiliar language. Our findings highlight the need for training methods that decouple reasoning from language-specific realization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成ベンチマークで高いパスレートを達成するが、事前訓練を受けていない言語にこの能力を移行できるかどうかはまだよく分かっていない。
我々は,すべての事前学習コーパスから欠落する最小命令型言語であるPyLangを導入し,352問題に対してゼロショットおよび微調整Qwen3(4B,8B,32B)のフロンティアモデルを評価する。
Pythonはすべての構成でPyLangを最大19%上回り、介入(マルチタスク学習、好みのチューニング、コード入力、潜在空間の目的)がギャップを埋める。
LLM判事は、フロンティアモデルがPythonの80%と同じアルゴリズムを選択するが、PyLangの実装に変換することはできないことを明らかにした。
CKA解析は、細調整されたモデルが、出力段階でばらつきながら、言語間のほぼ同一の内部表現(CKA > 0.97)に収束することを確認した。
モデルは言語に依存しないアルゴリズム理解を持っているが、馴染みのない言語では表現できない。
本研究は,言語固有の実現から推論を分離する学習方法の必要性を浮き彫りにした。
関連論文リスト
- Language Steering for Multilingual In-Context Learning [10.932074928744568]
非英語での大規模言語モデルのパフォーマンスは、英語よりもかなり劣っている。
トレーニング不要な言語ステアリングアプローチである言語ベクトルを提案する。
テスト対象のタスクや言語にまたがるベースライン上でのマルチランガル・イン・コンテクスト学習における一貫した改善を示す。
論文 参考訳(メタデータ) (2026-02-02T16:52:09Z) - LinguaMap: Which Layers of LLMs Speak Your Language and How to Tune Them? [3.809788214307542]
多言語転送ボトルネックと言語一貫性ボトルネックという,2つの重要な障害モードを特定し,特徴付ける。
我々はロジットレンズ解析を拡張し、言語確率層を層単位で追跡し、隠れ状態の言語間セマンティックな類似性を計算する。
これは、効率的な多言語適応のために言語制御の層局所化を利用する最初のアプローチである。
論文 参考訳(メタデータ) (2026-01-27T19:38:12Z) - Anka: A Domain-Specific Language for Reliable LLM Code Generation [0.0]
大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。
明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。
Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
論文 参考訳(メタデータ) (2025-12-29T05:28:17Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。