論文の概要: Evaluating LLMs and Prompting Strategies for Automated Hardware Diagnosis from Textual User-Reports
- arxiv url: http://arxiv.org/abs/2507.00742v1
- Date: Tue, 01 Jul 2025 13:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.644318
- Title: Evaluating LLMs and Prompting Strategies for Automated Hardware Diagnosis from Textual User-Reports
- Title(参考訳): テキスト・ユーザ・レポートによる自動ハードウェア診断のためのLCMとプロンプト戦略の評価
- Authors: Carlos Caminha, Maria de Lourdes M. Silva, Iago C. Chaves, Felipe T. Brito, Victor A. E. Farias, Javam C. Machado,
- Abstract要約: 大きな言語モデル(LLM)はそのような問題に対処する上で有望であることを示している。
本研究では,4つのプロンプト戦略を用いて,27のオープンソースモデル(1B-72Bパラメータ)と2つのプロプライエタリLSMを評価した。
3つのモデルはサイズと性能のバランスが良く、Mistral-small-24b-instructとllama-3.2-1b-instructと gemma-2-2b-itである。
- 参考スコア(独自算出の注目度): 0.43981305860983716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer manufacturers offer platforms for users to describe device faults using textual reports such as "My screen is flickering". Identifying the faulty component from the report is essential for automating tests and improving user experience. However, such reports are often ambiguous and lack detail, making this task challenging. Large Language Models (LLMs) have shown promise in addressing such issues. This study evaluates 27 open-source models (1B-72B parameters) and 2 proprietary LLMs using four prompting strategies: Zero-Shot, Few-Shot, Chain-of-Thought (CoT), and CoT+Few-Shot (CoT+FS). We conducted 98,948 inferences, processing over 51 million input tokens and generating 13 million output tokens. We achieve f1-score up to 0.76. Results show that three models offer the best balance between size and performance: mistral-small-24b-instruct and two smaller models, llama-3.2-1b-instruct and gemma-2-2b-it, that offer competitive performance with lower VRAM usage, enabling efficient inference on end-user devices as modern laptops or smartphones with NPUs.
- Abstract(参考訳): コンピュータメーカーは、ユーザーが「私の画面はびくびくしている」といったテキストレポートを使ってデバイス障害を記述するためのプラットフォームを提供する。
レポートから欠陥コンポーネントを特定することは、テストの自動化とユーザエクスペリエンスの向上に不可欠です。
しかし、このような報告は曖昧で詳細がないことが多いため、この作業は困難である。
大きな言語モデル(LLM)はそのような問題に対処する上で有望であることを示している。
本研究では、Zero-Shot、Few-Shot、Chain-of-Thought(CoT)、CoT+Few-Shot(CoT+FS)の4つのプロンプト戦略を用いて、27のオープンソースモデル(1B-72Bパラメータ)と2つのLLMを評価した。
我々は98,948の推論を行い、5100万以上の入力トークンを処理し、1300万の出力トークンを生成した。
f1スコアを最大0.76まで達成します。
Mistral-small-24b-instruct と llama-3.2-1b-instruct と gemma-2-2b-it の2つの小さなモデルは、VRAMの低使用率と競合する性能を提供し、最新のラップトップやNPUを搭載したスマートフォンのようなエンドユーザーデバイスでの効率的な推論を可能にしている。
関連論文リスト
- Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs [0.28207011158655404]
本稿では,大規模言語モデル(LLM)を用いたレイアウトリッチドキュメントからの情報抽出のための設計空間を定義し,検討する。
我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。
レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。
論文 参考訳(メタデータ) (2025-02-25T13:11:53Z) - Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - StructuredRAG: JSON Response Formatting with Large Language Models [0.3141085922386211]
本研究では,大規模言語モデルの応答形式指示に従う際の習熟度を評価するための6つのタスクのベンチマークであるStructuredRAGを紹介する。
我々は4ビット量子化による2つの最先端LCM, Gemini 1.5 Pro と Llama 3 8B のインストラクトを評価した。
Llama 3 8B命令は、しばしばGemini 1.5 Proと競合する。
論文 参考訳(メタデータ) (2024-08-07T19:32:59Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning [1.3192560874022086]
LiteMuLは、マルチタスク学習アプローチを使用してユーザーの会話を効率的に処理できる軽量のオンデバイスシーケンスタグガーです。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
論文 参考訳(メタデータ) (2020-12-15T19:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。