論文の概要: PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics
- arxiv url: http://arxiv.org/abs/2505.23126v2
- Date: Sun, 01 Jun 2025 18:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.048745
- Title: PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics
- Title(参考訳): PBEBench: 歴史的言語学にヒントを得たベンチマークを推論する例によるマルチステッププログラミング
- Authors: Atharva Naik, Darsh Agrawal, Manav Kapadnis, Yuwei An, Yash Mathur, Carolyn Rose, David Mortensen,
- Abstract要約: 我々は,事例によるプログラミングとして定式化された,歴史的言語学にヒントを得た帰納的推論問題に焦点をあてる。
ほぼ1kのインスタンスでテストセットを生成します。
最良のモデル(Claude-3.7-Sonnet)は、わずか54%のパスレートを達成し、LCoT LLMが歴史的言語学においてユビキタスなクラスや推論といまだに苦労していることを示した。
- 参考スコア(独自算出の注目度): 3.551857694498265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, long chain of thought (LCoT), Large Language Models (LLMs), have taken the machine learning world by storm with their breathtaking reasoning capabilities. However, are the abstract reasoning abilities of these models general enough for problems of practical importance? Unlike past work, which has focused mainly on math, coding, and data wrangling, we focus on a historical linguistics-inspired inductive reasoning problem, formulated as Programming by Examples. We develop a fully automated pipeline for dynamically generating a benchmark for this task with controllable difficulty in order to tackle scalability and contamination issues to which many reasoning benchmarks are subject. Using our pipeline, we generate a test set with nearly 1k instances that is challenging for all state-of-the-art reasoning LLMs, with the best model (Claude-3.7-Sonnet) achieving a mere 54% pass rate, demonstrating that LCoT LLMs still struggle with a class or reasoning that is ubiquitous in historical linguistics as well as many other domains.
- Abstract(参考訳): 近年,Large Language Models (LLMs) と呼ばれる長鎖の思考(LCoT)が,その呼吸推論能力によって機械学習の世界を席巻している。
しかし、これらのモデルの抽象的推論能力は、実用上重要な問題に対して十分一般的なものなのだろうか?
数学、コーディング、データラングリングを中心にした過去の研究とは違い、我々は歴史的言語学にインスパイアされた帰納的推論の問題に焦点を合わせており、例によるプログラミングとして定式化されている。
我々は,多くの推論ベンチマークが対象とするスケーラビリティや汚染問題に対処するために,このタスクのベンチマークを動的に生成する,完全に自動化されたパイプラインを開発した。
LCoT LLMsが歴史的言語学だけでなく、他の多くのドメインで広く使われているクラスや推論といまだに苦労していることを示すため、パイプラインを使用して、すべての最先端のLCMに対して、最も優れたモデル(Claude-3.7-Sonnet)で、わずか54%のパスレートで、ほぼ1kのインスタンスでテストセットを生成しました。
関連論文リスト
- Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。
基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。
既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-16T10:48:28Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。