Fugu-MT 論文翻訳(概要): EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

論文の概要: EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

arxiv url: http://arxiv.org/abs/2603.09678v1
Date: Tue, 10 Mar 2026 13:47:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.346065
Title: EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages
Title（参考訳）: EsoLang-Bench: 難解なプログラミング言語による大規模言語モデルにおける遺伝子推論の評価
Authors: Aman Sharma, Paras Chopra,
Abstract要約: 大規模な言語モデルは、コード生成ベンチマークでほぼシーリングのパフォーマンスを達成するが、これらの結果は、真の推論ではなく記憶を反映している。 EsoLang-Benchは5つの難解なプログラミング言語を用いたベンチマークで、事前学習のための経済的不合理性のため、ベンチマークゲームインセンティブに欠ける。これらの言語はメインストリームプログラミングと同じ計算プリミティブを必要とするが、Pythonより1000-100,000倍少ないパブリックリポジトリを持つ。
参考スコア（独自算出の注目度）: 5.37133760455631
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models achieve near-ceiling performance on code generation benchmarks, yet these results increasingly reflect memorization rather than genuine reasoning. We introduce EsoLang-Bench, a benchmark using five esoteric programming languages (Brainfuck, Befunge-98, Whitespace, Unlambda, and Shakespeare) that lack benchmark gaming incentives due to their economic irrationality for pre-training. These languages require the same computational primitives as mainstream programming but have 1,000-100,000x fewer public repositories than Python (based on GitHub search counts). We evaluate five frontier models across five prompting strategies and find a dramatic capability gap: models achieving 85-95% on standard benchmarks score only 0-11% on equivalent esoteric tasks, with 0% accuracy beyond the Easy tier. Few-shot learning and self-reflection fail to improve performance, suggesting these techniques exploit training priors rather than enabling genuine learning. EsoLang-Bench provides the first benchmark designed to mimic human learning by acquiring new languages through documentation, interpreter feedback, and iterative experimentation, measuring transferable reasoning skills resistant to data contamination.
Abstract（参考訳）: 大規模な言語モデルは、コード生成ベンチマークでほぼシーリングのパフォーマンスを達成するが、これらの結果は、真の推論ではなく記憶を反映している。 EsoLang-Benchは5つの難解なプログラミング言語(Brainfuck、Befunge-98、Whitespace、Unlambda、シェークスピア)を用いたベンチマークで、事前トレーニングの経済的不合理性のため、ベンチマークゲームインセンティブを欠いている。これらの言語はメインストリームプログラミングと同じ計算プリミティブを必要とするが、公開リポジトリはPythonより1000-100,000倍少ない(GitHub検索数に基づく)。標準ベンチマークで85-95%を達成するモデルは、等価な難解なタスクで0-11%しかスコアを付けておらず、その精度はイージー層を超えて0%である。少ないショットの学習と自己回帰はパフォーマンスを改善するのに失敗し、これらのテクニックは真の学習を可能にするのではなく、トレーニング先を悪用していることを示唆している。 EsoLang-Benchは、ドキュメント、インタプリタフィードバック、反復的な実験を通じて新しい言語を取得することで、人間の学習を模倣するように設計された最初のベンチマークを提供する。

関連論文リスト

Selecting Language Models for Social Science: Start Small, Start Open, and Validate [0.3823356975862005]
我々は、社会科学者が計算方法(ポスト)の検証を完全に避けることはできないと論じる。言語モデルの使用を必要とする特定の発見を確実に再現できるためには、タスクを確実に再現する必要がある。より小型でオープンなモデルから始め、計算パイプライン全体の妥当性を示すベンチマークを構築することを提案する。
論文参考訳（メタデータ） (2026-01-16T01:01:47Z)
Anka: A Domain-Specific Language for Reliable LLM Code Generation [0.0]
大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。 Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
論文参考訳（メタデータ） (2025-12-29T05:28:17Z)
UA-Code-Bench: A Competitive Programming Benchmark for Evaluating LLM Code Generation in Ukrainian [0.42970700836450487]
本稿では,ウクライナにおける言語モデルのコード生成と競合するプログラム問題解決能力の徹底的な評価を目的とした,新しいオープンソースベンチマークであるUA-Code-Benchを紹介する。ベンチマークには、Eolympプラットフォームから500の問題が含まれており、非常に簡単なものから非常に難しいものまで、5つの複雑性レベルに均等に分散している。その結果,OpenAI o3 や GPT-5 のようなトップパフォーマンスモデルでさえ,その半分しか解けていないことがわかった。
論文参考訳（メタデータ） (2025-11-07T07:24:56Z)
A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。 19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
XferBench: a Data-Driven Benchmark for Emergent Language [1.6574413179773761]
創発的言語の全体的な品質を評価するためのベンチマークを導入する。人間の言語における下流のNLPタスクの事前学習データとして、創発言語を用いてこれを計測する。我々は,人,合成,創発的な言語ベースラインを用いて,ベンチマークの有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-07-03T19:02:26Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。