Fugu-MT 論文翻訳(概要): Assessing Large Language Models in Comprehending and Verifying Concurrent Programs across Memory Models

論文の概要: Assessing Large Language Models in Comprehending and Verifying Concurrent Programs across Memory Models

arxiv url: http://arxiv.org/abs/2501.14326v1
Date: Fri, 24 Jan 2025 08:39:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.683241
Title: Assessing Large Language Models in Comprehending and Verifying Concurrent Programs across Memory Models
Title（参考訳）: メモリモデル間のコンカレントプログラムの整合検証における大規模言語モデルの評価
Authors: Ridhi Jain, Rahul Purandare,
Abstract要約: GPT-4、GPT-4o、Mistral-AIのLarge2は、問題の堅牢な理解を示している。優れた性能にもかかわらず、選択されたLLMは、緩和されたメモリモデルの下でプログラムの正確性を検証する重要な課題に直面している。
参考スコア（独自算出の注目度）: 1.5293427903448022
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As concurrent programming becomes increasingly prevalent, effectively identifying and addressing concurrency issues such as data races and deadlocks is critical. This study evaluates the performance of several leading large language models (LLMs), including GPT-3.5-turbo, GPT-4, GPT-4o, GPT-4o-mini, and Mistral-AI's Large2, in understanding and analyzing concurrency issues within software programs. Given that relaxed memory models, such as Total Store Order (TSO) and Partial Store Order (PSO), are widely implemented and adapted in modern systems, supported even by commodity architectures like ARM and x86, our evaluation focuses not only on sequentially consistent memory models but also on these relaxed memory models. Specifically, we assess two main aspects: the models' capacity to detect concurrency problems under a sequentially consistent memory model and their ability to verify the correctness conditions of concurrent programs across both sequentially consistent and relaxed memory models. To do this, we leverage SV-COMP's pthread tests and 25 ARM Litmus tests designed to evaluate Total Store Order (TSO) and Partial Store Order (PSO) memory models. The experimental results reveal that GPT-4, GPT-4o, and Mistral-AI's Large2 demonstrate a robust understanding of concurrency issues, effectively identifying data races and deadlocks when assessed under a sequentially consistent memory model. However, despite its superior performance, all selected LLMs face significant challenges verifying program correctness under relaxed memory models. These LLMs exhibit limitations in accurately capturing memory ordering constraints, and their current capabilities fall short in verifying even small programs in these complex scenarios.
Abstract（参考訳）: 並列プログラミングがますます普及するにつれて、データレースやデッドロックといった並行性の問題を特定し、対処することが重要である。本研究は, GPT-3.5-turbo, GPT-4, GPT-4o, GPT-4o-mini, Mistral-AI's Large2などの主要な大規模言語モデル(LLM)の性能を,ソフトウェアプログラム内の並行性問題を理解し解析するために評価した。 TSO(Total Store Order)やPSO(Partial Store Order)のような緩やかなメモリモデルは、ARMやx86のようなコモディティアーキテクチャでもサポートされ、現代のシステムで広く実装され、適応されているため、我々の評価はシーケンシャルに一貫したメモリモデルだけでなく、これらの緩やかなメモリモデルにも焦点を当てている。具体的には、逐次的に一貫したメモリモデルの下で並列性問題を検出するモデルの能力と、逐次的に一貫したメモリモデルと緩和されたメモリモデルの両方で並列プログラムの正当性条件を検証する能力の2つの主な側面を評価する。これを実現するために,SV-COMPのpthreadテストと,TSO(Total Store Order)とPSO(Partial Store Order)のメモリモデルを評価するために設計された25のARM Litmusテストを利用する。実験の結果,GPT-4,GPT-4o,Mistral-AIのLarge2は並列性の問題に対する堅牢な理解を示し,逐次的に一貫したメモリモデルで評価した場合,データ競合やデッドロックを効果的に識別する。しかし、その優れた性能にもかかわらず、選択されたLLMは、緩和されたメモリモデルの下でプログラムの正確性を検証する重要な課題に直面している。これらのLCMは、メモリ順序付けの制約を正確に捉えるのに限界があり、その現在の能力は、これらの複雑なシナリオにおける小さなプログラムの検証に不足している。

関連論文リスト

SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
EmbBERT-Q: Breaking Memory Barriers in Embedded NLP [3.1781777694121187]
EmbBERT-Qは、メモリ制約の厳しい小さなデバイス向けに特別に設計された、新しい小さな言語モデルである。アーキテクチャの革新とハードウェア互換の8ビット量子化を組み合わせることで、EmbBERT-Qは一貫して2MBのメモリ予算までスケールダウンされたいくつかのベースラインモデルより優れている。
論文参考訳（メタデータ） (2025-02-14T08:33:31Z)
Training Sparse Mixture Of Experts Text Embedding Models [0.0]
トランスフォーマーベースのテキスト埋め込みモデルは、パラメータ数を増やすことで、MIRACLやBEIRのようなベンチマークのパフォーマンスを改善した。このスケーリングアプローチでは、推論レイテンシやメモリ使用量の増加など、デプロイメント上の大きな課題が導入されている。最初の汎用MoEテキスト埋め込みモデルであるNomic Embed v2を紹介する。
論文参考訳（メタデータ） (2025-02-11T21:36:31Z)
Minerva: A Programmable Memory Test Benchmark for Language Models [18.474144165594225]
本稿では、モデルがメモリを効果的に活用できる能力を評価するために、包括的なテストを自動的に生成するフレームワークを提案する。我々は、検索、リコール、編集、マッチング、文脈記憶における情報の比較といったアトミックなタスクのモデルを評価する。また、より複雑で統合されたタスクを実行するモデルの能力を調べるために、複合テストも設計する。
論文参考訳（メタデータ） (2025-02-05T16:53:45Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。 MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文参考訳（メタデータ） (2024-02-07T07:14:11Z)
Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文参考訳（メタデータ） (2023-05-30T06:40:08Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。