Fugu-MT 論文翻訳(概要): PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics

論文の概要: PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics

arxiv url: http://arxiv.org/abs/2505.23126v3
Date: Thu, 16 Oct 2025 18:47:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:07.123922
Title: PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics
Title（参考訳）: PBEBench: 歴史的言語学にヒントを得たベンチマークを推論する例によるマルチステッププログラミング
Authors: Atharva Naik, Prakam, Darsh Agrawal, Yash Mathur, Manav Kapadnis, Yuwei An, Clayton Marr, Carolyn Rose, David Mortensen,
Abstract要約: 我々は,Large Language Models (LLMs) の帰納的推論能力を評価する新しいタイプのベンチマークに貢献する。本稿では,制御不能な問題を生成し,推論モデルの評価を可能にする完全自動パイプラインを提案する。実験により、テストタイム計算やLCoT(ロングチェーンオブ思想)推論を利用するモデルと、そうでないモデルの間には、かなりのパフォーマンスギャップが明らかになる。
参考スコア（独自算出の注目度）: 5.645098175233682
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although many benchmarks evaluate the reasoning abilities of Large Language Models (LLMs) within domains such as mathematics, coding, or data wrangling, few abstract away from domain specifics to examine reasoning as a capability in and of itself. We contribute a novel type of benchmark evaluating the inductive reasoning capabilities of LLMs that is inspired by the forward reconstruction task from historical linguistics but is formulated in an extremely simple, general way (in the form of Programming by Examples). The task involves generating a cascade of simple string rewrite programs to transform a given list of input strings into a list of desired output strings. We present a fully automated pipeline that programmatically generates problems of this type with controllable difficulty, enabling scalable evaluation of reasoning models while avoiding contamination. Using this approach, we construct two benchmarks: PBEBench-Lite, which efficiently stratifies models of varying capabilities, and PBEBench, which requires models to induce programs similar in complexity to those constructed by historical linguists. Our experiments reveal a substantial performance gap between models that leverage test-time compute or LCoT (long chain-of-thought) reasoning and those that do not. Moreover, although recent models show promise, the solve rate for both of them drops below 5% for hard instances of the PBEBench dataset (ground truth cascade lengths of 20 and 30, respectively), falling well short of realistic historical linguistics requirements even with computationally expensive, popular scaling techniques from the PBE and reasoning literature. Additionally, we also study the effectiveness of different scaling strategies and the impact of various hyperparameters on the difficulty of the generated data using gpt-oss-120b, the best-performing open-source model.
Abstract（参考訳）: 多くのベンチマークでは、数学、コーディング、データラングリングといった分野における大規模言語モデル(LLM)の推論能力を評価しているが、推論をそれ自体の能力として検証するために、ドメイン固有性から抽象化されることはほとんどない。本稿では,LLMの帰納的推論能力を評価する新しいタイプのベンチマークを,歴史言語学から先進的再構築タスクにヒントを得たものであるが,非常に単純で一般的な方法で(例によるプログラミングの形で)定式化されている。このタスクでは、入力文字列のリストを所望の出力文字列のリストに変換するための単純な文字列書き換えプログラムのカスケードを生成する。本稿では,このタイプの問題を制御し難い方法でプログラム的に生成し,汚染を避けながら推論モデルのスケーラブルな評価を可能にする完全自動パイプラインを提案する。 PBEBench-Lite と PBEBench は、歴史的言語学者によって構築されたプログラムに類似した複雑さのプログラムを誘導する。実験の結果,テスト時間計算やLCoT(Long chain-of- Thought)推論を利用するモデルと,そうでないモデルとの間には,かなりの性能差が認められた。さらに、近年のモデルでは、PBEBenchデータセットのハードインスタンス(それぞれ20と30のグラウンド真理カスケードの長さ)の5%以下で解答率が低下しており、計算コストが高く、PBEや推論文献からの一般的なスケーリング技術でさえも、現実的な歴史的言語学の要求に十分満たされていない。さらに,gpt-oss-120bを用いて,様々なスケーリング戦略の有効性と,様々なハイパーパラメータが生成データの難易度に与える影響について検討した。

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文参考訳（メタデータ） (2025-02-16T10:48:28Z)
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.056519816264505]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文参考訳（メタデータ） (2025-02-14T06:05:12Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。