論文の概要: Turing Machine Evaluation for Large Language Model
- arxiv url: http://arxiv.org/abs/2504.20771v1
- Date: Tue, 29 Apr 2025 13:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.914931
- Title: Turing Machine Evaluation for Large Language Model
- Title(参考訳): 大規模言語モデルのチューリングマシン評価
- Authors: Haitao Wu, Zongbo Han, Huaxi Huang, Changqing Zhang,
- Abstract要約: 大規模言語モデル(LLM)の計算推論能力を体系的に研究するベンチマークであるTMBenchを開発する。
TMBenchは、知識に依存しない評価、調整可能な難易度、インスタンス生成のための無制限容量など、いくつかの重要な利点を提供する。
TMBenchのモデル性能は他の評価された推論ベンチマークのパフォーマンスと強く相関していることがわかった。
- 参考スコア(独自算出の注目度): 23.17949876392197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development and widespread application of Large Language Models (LLMs), rigorous evaluation has become particularly crucial. This research adopts a novel perspective, focusing on evaluating the core computational reasoning ability of LLMs, defined as the capacity of model to accurately understand rules, and execute logically computing operations. This capability assesses the reliability of LLMs as precise executors, and is critical to advanced tasks such as complex code generation and multi-step problem-solving. We propose an evaluation framework based on Universal Turing Machine (UTM) simulation. This framework requires LLMs to strictly follow instructions and track dynamic states, such as tape content and read/write head position, during multi-step computations. To enable standardized evaluation, we developed TMBench, a benchmark for systematically studying the computational reasoning capabilities of LLMs. TMBench provides several key advantages, including knowledge-agnostic evaluation, adjustable difficulty, foundational coverage through Turing machine encoding, and unlimited capacity for instance generation, ensuring scalability as models continue to evolve. We find that model performance on TMBench correlates strongly with performance on other recognized reasoning benchmarks (Pearson correlation coefficient is 0.73), clearly demonstrating that computational reasoning is a significant dimension for measuring the deep capabilities of LLMs. Code and data are available at https://github.com/HaitaoWuTJU/Turing-Machine-Bench.
- Abstract(参考訳): LLM(Large Language Models)の急速な開発と普及により、厳密な評価が特に重要になっている。
本研究は,ルールを正確に理解し,論理計算処理を行うためのモデルの能力として定義された LLM のコア計算推論能力の評価に焦点をあてた,新しい視点を採用する。
この能力は、LCMの信頼性を正確な実行子として評価し、複雑なコード生成や多段階問題解決といった高度なタスクに不可欠である。
本稿では,Universal Turing Machine (UTM) シミュレーションに基づく評価フレームワークを提案する。
このフレームワークでは、マルチステップ計算において、LSMは命令を厳密に追従し、テープの内容やリード/ライトヘッド位置などの動的状態を追跡する必要がある。
標準化された評価を実現するため,LLMの計算推論能力を体系的に研究するベンチマークTMBenchを開発した。
TMBenchは、知識に依存しない評価、調整可能な難易度、チューリングマシンエンコーディングによる基礎的カバレッジ、インスタンス生成の無制限容量など、いくつかの重要な利点を提供している。
TMBenchのモデル性能は、他の認識された推論ベンチマークの性能と強く相関し(ピアソン相関係数は0.73)、計算的推論がLLMの深い能力を測定する上で重要な次元であることを明確に示している。
コードとデータはhttps://github.com/HaitaoWuTJU/Turing-Machine-Benchで公開されている。
関連論文リスト
- SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。
LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。
SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。
オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。
G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。
本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Large Language Models and the Extended Church-Turing Thesis [0.0]
本稿では,計算可能性理論と計算複雑性理論を用いて,大規模言語モデル(LLM)の計算能力について検討する。
固定的な(非適応的な) LLM は、計算量的に a, probably large, deterministic finite-state transducer と同値であることを示す。
本研究は,いくつかの関連分野と哲学の幅広い文脈における知見のメリットについて論じる。
論文 参考訳(メタデータ) (2024-09-11T03:09:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
論文 参考訳(メタデータ) (2023-12-22T18:07:44Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。