Fugu-MT 論文翻訳(概要): DeepSeek-V3, GPT-4, Phi-4, and LLaMA-3.3 generate correct code for LoRaWAN-related engineering task

論文の概要: DeepSeek-V3, GPT-4, Phi-4, and LLaMA-3.3 generate correct code for LoRaWAN-related engineering task

arxiv url: http://arxiv.org/abs/2502.14926v1
Date: Wed, 19 Feb 2025 23:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 23:44:09.962691
Title: DeepSeek-V3, GPT-4, Phi-4, and LLaMA-3.3 generate correct code for LoRaWAN-related engineering task
Title（参考訳）: DeepSeek-V3, GPT-4, Phi-4, LLaMA-3.3はLoRaWAN関連エンジニアリングタスクの正しいコードを生成する
Authors: Daniel Fernandes, João P. Matos-Carvalho, Carlos M. Fernandes, Nuno Fachada,
Abstract要約: 本稿では,LoRaWAN関連エンジニアリングタスクの自動化における大規模言語モデル(LLM)の性能について検討する。これを評価するため、GPT-4やDeepSeek-V3といった最先端のモデルと比較した。結果、DeepSeek-V3 と GPT-4 は一貫して正確な解を提供していたが、Phi-4 と LLaMA-3.3 は高い性能を示した。
参考スコア（独自算出の注目度）: 0.8301471481260676
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper investigates the performance of 16 Large Language Models (LLMs) in automating LoRaWAN-related engineering tasks involving optimal placement of drones and received power calculation under progressively complex zero-shot, natural language prompts. The primary research question is whether lightweight, locally executed LLMs can generate correct Python code for these tasks. To assess this, we compared locally run models against state-of-the-art alternatives, such as GPT-4 and DeepSeek-V3, which served as reference points. By extracting and executing the Python functions generated by each model, we evaluated their outputs on a zero-to-five scale. Results show that while DeepSeek-V3 and GPT-4 consistently provided accurate solutions, certain smaller models-particularly Phi-4 and LLaMA-3.3-also demonstrated strong performance, underscoring the viability of lightweight alternatives. Other models exhibited errors stemming from incomplete understanding or syntactic issues. These findings illustrate the potential of LLM-based approaches for specialized engineering applications while highlighting the need for careful model selection, rigorous prompt design, and targeted domain fine-tuning to achieve reliable outcomes.
Abstract（参考訳）: 本稿では,LoRaWAN関連技術タスクの自動化における16大言語モデル(LLM)の性能について検討する。主要な研究課題は、軽量でローカルに実行されるLLMがこれらのタスクに対して正しいPythonコードを生成することができるかどうかである。これを評価するために、我々はGPT-4やDeepSeek-V3のような最先端の代替モデルと比較した。モデル毎に生成されたPython関数を抽出し,実行することにより,その出力をゼロから5倍のスケールで評価した。その結果、DeepSeek-V3 と GPT-4 は一貫して正確な解決策を提供していたが、Phi-4 と LLaMA-3.3 はより小型のモデルでも高い性能を示し、軽量な代替機が実現可能であることを示した。他のモデルは、不完全な理解や構文上の問題に起因する誤りを示した。これらの知見は, 厳密なモデル選択, 厳密なプロンプト設計, 信頼性の高い結果を達成するためのドメインファインタニングの必要性を強調しつつ, 専門的な工学的応用のためのLLMベースのアプローチの可能性を示している。

関連論文リスト

Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation [6.776829305448693]
大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を示し、自動エクスプロイト生成(AEG)の可能性への懸念を提起している。本稿では, AEG における LLM の有効性に関する最初の体系的研究を行い, 協調性と技術能力の評価を行った。
論文参考訳（メタデータ） (2025-05-02T07:15:22Z)
Code Generation with Small Language Models: A Deep Evaluation on Codeforces [2.314213846671956]
小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。 800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。 PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
論文参考訳（メタデータ） (2025-04-09T23:57:44Z)
Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。 DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文参考訳（メタデータ） (2025-03-23T16:20:14Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4 and Bard's Capacity to Handle Object-Oriented Programming Assignments [0.0]
大規模言語モデル(LLM)は、プログラミング課題を解決しながら学生を支援するための有望なツールとして登場した。本研究では,3つの卓越したLCMを用いて,実環境におけるOOPの課題を解決する実験を行った。この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
論文参考訳（メタデータ） (2024-03-10T16:40:05Z)
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。 LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文参考訳（メタデータ） (2024-02-27T10:44:52Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle? [0.0]
大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。様々なLSMの習熟度を評価するために,Turtle構文でシリアライズされた知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。 GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
論文参考訳（メタデータ） (2023-09-29T10:36:04Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。