Fugu-MT 論文翻訳(概要): TuringQ: Benchmarking AI Comprehension in Theory of Computation

論文の概要: TuringQ: Benchmarking AI Comprehension in Theory of Computation

arxiv url: http://arxiv.org/abs/2410.06547v1
Date: Wed, 9 Oct 2024 04:53:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 04:59:08.442310
Title: TuringQ: Benchmarking AI Comprehension in Theory of Computation
Title（参考訳）: TuringQ: 計算理論におけるAI理解のベンチマーク
Authors: Pardis Sadat Zahraei, Ehsaneddin Asgari,
Abstract要約: 本稿では,計算理論における大規模言語モデル(LLM)の推論能力を評価するために設計された最初のベンチマークであるTuringQを紹介する。チューリングQは4,006人の学部生と大学院レベルの質問応答ペアで構成され、難易度は4つの難易度に分類され、7つの中核的な理論領域をカバーする。
参考スコア（独自算出の注目度）: 0.9023847175654603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present TuringQ, the first benchmark designed to evaluate the reasoning capabilities of large language models (LLMs) in the theory of computation. TuringQ consists of 4,006 undergraduate and graduate-level question-answer pairs, categorized into four difficulty levels and covering seven core theoretical areas. We evaluate several open-source LLMs, as well as GPT-4, using Chain of Thought prompting and expert human assessment. Additionally, we propose an automated LLM-based evaluation system that demonstrates competitive accuracy when compared to human evaluation. Fine-tuning a Llama3-8B model on TuringQ shows measurable improvements in reasoning ability and out-of-domain tasks such as algebra. TuringQ serves as both a benchmark and a resource for enhancing LLM performance in complex computational reasoning tasks. Our analysis offers insights into LLM capabilities and advances in AI comprehension of theoretical computer science.
Abstract（参考訳）: 本稿では,計算理論における大規模言語モデル(LLM)の推論能力を評価するために設計された最初のベンチマークであるTuringQを紹介する。チューリングQは4,006人の学部生と大学院レベルの質問応答ペアで構成され、難易度は4つの難易度に分類され、7つの中核的な理論領域をカバーする。我々は、Chain of Thoughtのプロンプトと専門家による人間の評価を用いて、オープンソースのLCMとGPT-4を評価した。また,人間の評価と比較した場合の競合精度を示すLLMに基づく自動評価システムを提案する。チューリングQ上のLlama3-8Bモデルを微調整すると、推論能力や代数のような領域外タスクの計測精度が向上する。 TuringQ は複雑な計算推論タスクにおいて LLM 性能を向上させるためのベンチマークとリソースとして機能する。我々の分析は、LLMの能力と理論計算機科学のAI理解の進歩に関する洞察を提供する。

関連論文リスト

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation [18.636244209466266]
Iteratively Improved Program Construction (IIPC) は、プログラム的推論チェーンを反復的に洗練し、実行フィードバックをベースLLMのネイティブチェーン能力と組み合わせる推論手法である。 IIPCは、複数のベース LLM 上の推論ベンチマークの大部分において、競合するアプローチを上回っている。
論文参考訳（メタデータ） (2026-02-03T19:13:31Z)
Computability of Agentic Systems [0.0]
Quest Graphは、有限コンテキストでエージェントシステムの能力を分析するための正式なフレームワークである。参照拡張(Turing-complete)システムは、非拡張(context-free)システムよりも複雑なグラフをシミュレーションする方が指数関数的に効率的であることを示す。
論文参考訳（メタデータ） (2026-01-26T16:06:15Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Turing Machine Evaluation for Large Language Model [23.17949876392197]
大規模言語モデル(LLM)の計算推論能力を体系的に研究するベンチマークであるTMBenchを開発する。 TMBenchは、知識に依存しない評価、調整可能な難易度、インスタンス生成のための無制限容量など、いくつかの重要な利点を提供する。 TMBenchのモデル性能は他の評価された推論ベンチマークのパフォーマンスと強く相関していることがわかった。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。 OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文参考訳（メタデータ） (2025-02-18T04:11:29Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Argumentation Computation with Large Language Models : A Benchmark Study [6.0682923348298194]
大規模言語モデル(LLM)は、ニューロシンボリックコンピューティングにおいて大きな進歩を遂げた。我々は,様々な抽象的論証セマンティクスの拡張を決定する上でのLLMの能力を検討することを目的とする。
論文参考訳（メタデータ） (2024-12-21T18:23:06Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines [7.695524275630717]
大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。チューリングマシンをエミュレートすることで,LCMがステップバイステップの計算を実行することを学べる構成可能な算術演算フレームワーク(CAEF)を提案する。評価では, LLaMA 3.1-8B モデル上での7つの一般的な数学的操作に対して, CAEF は100%近い精度を達成している。
論文参考訳（メタデータ） (2024-10-10T13:23:49Z)
Large Language Models and the Extended Church-Turing Thesis [0.0]
本稿では,計算可能性理論と計算複雑性理論を用いて,大規模言語モデル(LLM)の計算能力について検討する。固定的な(非適応的な) LLM は、計算量的に a, probably large, deterministic finite-state transducer と同値であることを示す。本研究は,いくつかの関連分野と哲学の幅広い文脈における知見のメリットについて論じる。
論文参考訳（メタデータ） (2024-09-11T03:09:55Z)
MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark [29.9945601202065]
我々は,視覚情報とテキスト情報の組み合わせの理解と適用を強調する新しいベンチマークであるMathScapeを提案する。 MathScapeは、MLLMの理論的理解と応用能力を評価し、写真に基づく数学問題シナリオを評価するように設計されている。我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
論文参考訳（メタデータ） (2024-08-14T13:23:43Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。半構造化文書に適した新しいプロンプト技術を導入する。
論文参考訳（メタデータ） (2024-02-17T05:10:18Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。