Fugu-MT 論文翻訳(概要): When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning

論文の概要: When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning

arxiv url: http://arxiv.org/abs/2509.10946v1
Date: Sat, 13 Sep 2025 19:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-16 17:26:22.849569
Title: When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning
Title（参考訳）: コードの自動操縦が壊れる時 - 組込み機械学習でLLMが失敗する理由
Authors: Roberto Morabito, Guanghan Wu,
Abstract要約: 我々は、形式、モデル行動、構造的仮定が成功率と失敗特性の両方にどのように影響するかを示す。私たちの分析では、フォーマットによる誤解釈や、コンパイルされるが下流で壊れる実行時ディスラプティブコードなど、さまざまなエラーが発生しやすい挙動を明らかにしています。
参考スコア（独自算出の注目度）: 0.8880611506199766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly used to automate software generation in embedded machine learning workflows, yet their outputs often fail silently or behave unpredictably. This article presents an empirical investigation of failure modes in LLM-powered ML pipelines, based on an autopilot framework that orchestrates data preprocessing, model conversion, and on-device inference code generation. We show how prompt format, model behavior, and structural assumptions influence both success rates and failure characteristics, often in ways that standard validation pipelines fail to detect. Our analysis reveals a diverse set of error-prone behaviors, including format-induced misinterpretations and runtime-disruptive code that compiles but breaks downstream. We derive a taxonomy of failure categories and analyze errors across multiple LLMs, highlighting common root causes and systemic fragilities. Though grounded in specific devices, our study reveals broader challenges in LLM-based code generation. We conclude by discussing directions for improving reliability and traceability in LLM-powered embedded ML systems.
Abstract（参考訳）: 大きな言語モデル(LLM)は、組み込み機械学習ワークフローでソフトウェア生成を自動化するためにますます使われていますが、そのアウトプットはしばしば静かに失敗するか、予測不能に振る舞います。本稿では、データ前処理、モデル変換、デバイス上での推論コード生成をオーケストレーションするオートパイロットフレームワークに基づいて、LLM駆動のMLパイプラインの障害モードを実証的に調査する。形式やモデル動作,構造的仮定が成功率と失敗特性にどのように影響するかを,標準的な検証パイプラインが検出できないような方法で示しています。私たちの分析では、フォーマットによる誤解釈や、コンパイルされるが下流で壊れる実行時ディスラプティブコードなど、さまざまなエラーが発生しやすい挙動を明らかにしています。障害カテゴリの分類を導出し、複数のLSMにわたってエラーを分析し、共通の根本原因と系統的なフラギリティを強調した。特定のデバイスに基盤を置いているが、LLMベースのコード生成において、より広範な課題が明らかにされている。 LLMを用いた組込みMLシステムにおける信頼性とトレーサビリティ向上の方向性について論じる。

関連論文リスト

Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。包括的なエラー解析と手動分類を行う。その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文参考訳（メタデータ） (2025-08-07T11:02:32Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文参考訳（メタデータ） (2024-07-24T16:33:04Z)
Towards Understanding the Characteristics of Code Generation Errors Made by Large Language Models [10.519984835232359]
大規模言語モデル(LLM)はコード生成において前例のない機能を示している。我々は,HumanEvalデータセット上の6つの代表的なLCMに対して,コード生成エラーの詳細な解析を行った。 LLMによるコード生成エラーの発見と修正には,いくつかの課題が浮かび上がっている。
論文参考訳（メタデータ） (2024-06-13T01:29:52Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。 Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文参考訳（メタデータ） (2024-04-09T22:03:39Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。