Fugu-MT 論文翻訳(概要): Language Models in Software Development Tasks: An Experimental Analysis of Energy and Accuracy

論文の概要: Language Models in Software Development Tasks: An Experimental Analysis of Energy and Accuracy

arxiv url: http://arxiv.org/abs/2412.00329v2
Date: Fri, 17 Jan 2025 12:53:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 16:02:51.174788
Title: Language Models in Software Development Tasks: An Experimental Analysis of Energy and Accuracy
Title（参考訳）: ソフトウェア開発タスクにおける言語モデル:エネルギーと正確性の実験的検討
Authors: Negar Alizadeh, Boris Belchev, Nishant Saurabh, Patricia Kelbert, Fernando Castor,
Abstract要約: 本稿では,言語モデルをローカルに展開する際のモデル精度とエネルギー消費のトレードオフについて検討する。以上の結果から,LLMの高エネルギー化は必ずしも精度を著しく向上させるものではないことが示唆された。大規模モデルの量子化バージョンは、一般的に中型のモデルに比べて効率と精度が良い。
参考スコア（独自算出の注目度）: 40.793232371852795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of generative AI-based coding assistants like ChatGPT and Github Copilot is a reality in contemporary software development. Many of these tools are provided as remote APIs. Using third-party APIs raises data privacy and security concerns for client companies, which motivates the use of locally-deployed language models. In this study, we explore the trade-off between model accuracy and energy consumption, aiming to provide valuable insights to help developers make informed decisions when selecting a language model. We investigate the performance of 18 families of LLMs in typical software development tasks on two real-world infrastructures, a commodity GPU and a powerful AI-specific GPU. Given that deploying LLMs locally requires powerful infrastructure which might not be affordable for everyone, we consider both full-precision and quantized models. Our findings reveal that employing a big LLM with a higher energy budget does not always translate to significantly improved accuracy. Additionally, quantized versions of large models generally offer better efficiency and accuracy compared to full-precision versions of medium-sized ones. Apart from that, not a single model is suitable for all types of software development tasks.
Abstract（参考訳）: ChatGPTやGithub Copilotのような生成AIベースのコーディングアシスタントの使用は、現代のソフトウェア開発における現実である。これらのツールの多くはリモートAPIとして提供される。サードパーティAPIを使用すると、クライアント企業のデータプライバシとセキュリティ上の懸念が高まり、ローカルにデプロイされた言語モデルの使用が動機になる。本研究では,モデル精度とエネルギー消費のトレードオフについて検討し,言語モデルを選択する際に開発者が決定を下すのに役立つ貴重な洞察を提供することを目的とする。実世界の2つのインフラ、コモディティGPUと強力なAI固有のGPU上でのソフトウェア開発タスクにおけるLLM18ファミリの性能について検討する。 LLMをローカルにデプロイするには、誰もが手頃な価格ではない強力なインフラが必要であることを考えれば、完全な精度と量子化モデルの両方を考慮する。その結果,LLMの高エネルギー化は必ずしも精度を著しく向上させるものではないことがわかった。さらに、大規模モデルの量子化バージョンは、通常、中規模モデルの完全精度バージョンよりも効率と精度が良い。それとは別に、すべてのタイプのソフトウェア開発タスクに1つのモデルが適している訳ではありません。

関連論文リスト

Querying Large Automotive Software Models: Agentic vs. Direct LLM Approaches [3.549427092296418]
大規模言語モデル(LLM)は、自然言語を通じてソフトウェアモデルのような複雑なソフトウェアアーチファクトと対話する新たな機会を提供する。本稿では,LLMを利用してソフトウェアモデルに対する疑問に答えるための2つのアプローチについて検討する。自動車分野におけるタイミング解析とソフトウェア最適化のために設計されたEcoreメタモデルを用いて,これらの手法を評価する。
論文参考訳（メタデータ） (2025-06-16T07:34:28Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
Darkit: A User-Friendly Software Toolkit for Spiking Large Language Model [50.37090759139591]
大規模言語モデル(LLM)は、数十億のパラメータからなる様々な実践的応用に広く応用されている。人間の脳は、生物工学的なスパイキング機構を使って、エネルギー消費を大幅に削減しながら、同じ仕事をこなすことができる。私たちはDarwinKit(Darkit)という名のソフトウェアツールキットをリリースし、脳にインスパイアされた大きな言語モデルの採用を加速しています。
論文参考訳（メタデータ） (2024-12-20T07:50:08Z)
Programming with AI: Evaluating ChatGPT, Gemini, AlphaCode, and GitHub Copilot for Programmers [0.0]
本稿では、ChatGPT、Gemini(Bard AI)、AlphaCode、GitHub Copilotなど、主要なプログラミングアシスタントの徹底的な評価を行う。 AIモデルの潜在能力を具現化する倫理的開発プラクティスの必要性を強調している。
論文参考訳（メタデータ） (2024-11-14T06:40:55Z)
On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文参考訳（メタデータ） (2024-08-26T03:33:36Z)
Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning [0.9787137564521711]
本稿では, 意味探索, プロンプトエンジニアリング, 微調整を組み合わせることで, LLMのタスクを正確に実行する能力を大幅に向上させることができることを示す。 GPT-4のようなプロプライエタリなモデルと、Llama-2-70bのようなオープンソースのモデル、および様々な埋め込み方法を比較します。
論文参考訳（メタデータ） (2024-04-16T03:39:16Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
ModelGPT: Unleashing LLM's Capabilities for Tailored Model Generation [35.160964210941955]
本稿では,ユーザが提供するデータやタスク記述に適したAIモデルを決定・生成するフレームワークであるModelGPTを提案する。ユーザの要求に応じて、ModelGPTは、以前のパラダイムよりも少なくとも270倍高速に、調整済みのモデルを提供することができる。
論文参考訳（メタデータ） (2024-02-18T11:24:34Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文参考訳（メタデータ） (2023-08-25T14:56:21Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。