論文の概要: Evaluating LLMs' Effectiveness on Real-World Consumer Device Repair Questions
- arxiv url: http://arxiv.org/abs/2606.03331v1
- Date: Tue, 02 Jun 2026 08:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.877257
- Title: Evaluating LLMs' Effectiveness on Real-World Consumer Device Repair Questions
- Title(参考訳): LLMが実世界の消費者製品修理問題に及ぼす影響評価
- Authors: Atm Mizanur Rahman, Md Arid Hasan, Syed Ishtiaque Ahmed, Sharifa Sultana,
- Abstract要約: 我々は、Redditから電話の修理、コンピュータの修理、データの回復にまたがる現実世界の991の修復質問のベンチマークを紹介した。
本研究は,英語とバングラ語における6つの最先端のLLMを,修理の正確性,完全性,実用性,安全性の4つの基準を用いて評価した。
以上の結果から,LLMは有用な補修支援を行うことができるが,高リスクな実世界の補修作業には信頼性が低いことが示唆された。
- 参考スコア(独自算出の注目度): 16.244312973504062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consumer device repair is an important but underexplored testbed for large language models (LLMs). Repair tasks require reasoning over incomplete problem descriptions, hardware-specific diagnostics, actionable troubleshooting, and safety-critical decisions, where incorrect advice can cause device damage, battery hazards, or permanent data loss. We introduce a benchmark of 991 real-world repair questions from Reddit spanning phone repair, computer repair, and data recovery, each paired with technician-written reference solutions, and provide Bangla translations to evaluate cross-lingual performance. We evaluate six state-of-the-art LLMs in English and Bangla using four repair-specific criteria: correctness, completeness, practicality, and safety. Our results show that while LLMs can provide useful repair assistance, they remain unreliable for high-risk real-world repair tasks without rigorous evaluation and explicit safety safeguards. Phone repair is the most difficult and safety-sensitive domain, and all models make substantial errors in board-level diagnosis, repair prioritization, and safe recovery procedures. Across domains and models, Bangla responses consistently perform worse than English responses. Among the evaluated models, GPT-5.4 performs best overall.
- Abstract(参考訳): コンシューマー機器の修理は、大型言語モデル(LLM)にとって重要ではあるが過小評価されたテストベッドである。
修復作業には、不完全な問題記述、ハードウェア固有の診断、行動可能なトラブルシューティング、安全クリティカルな決定に関する推論が必要である。
Redditのリアルタイム修復問題991のベンチマークを,電話修理,コンピュータ修復,データリカバリを対象とし,それぞれが技術者が記述した参照ソリューションと組み合わせて実施し,言語間パフォーマンスを評価するためのBangla翻訳を提供する。
本研究は,英語とバングラ語における6つの最先端のLLMを,修理の正確性,完全性,実用性,安全性の4つの基準を用いて評価した。
以上の結果から,LLMは高い信頼性を保ちつつも,厳密な評価や明確な安全確保を行なわずに,高リスクな現実の修復作業には信頼性が保たれていることが示唆された。
携帯電話の修理は最も困難で安全に敏感な領域であり、全てのモデルがボードレベルの診断、修理優先順位付け、安全回復手順において重大な誤りを犯している。
ドメインやモデル全体にわたって、バングラの応答は、英語の応答よりも一貫して悪化する。
評価されたモデルの中で、GPT-5.4は全体的な性能が最も良い。
関連論文リスト
- Detect--Repair--Verify for LLM-Generated Code: A Multi-Language, Multi-Granularity Empirical Study [10.18490328199727]
大規模な言語モデルは実行可能なソフトウェアアーチファクトを生成することができるが、そのセキュリティはエンドツーエンドの評価が難しいままである。
本研究では、脆弱性を検出し、修復し、セキュリティおよび機能テストで再チェックするDRVワークフローを通じて、その問題を調査する。
現在の証拠の4つのギャップに対処する: LLMの生成したアーティファクトの試験的なベンチマークの欠如、パイプラインレベルの有効性に関する限られた証拠、修正ガイダンスとしての検出レポートの不確実な信頼性、検証中の不確実な修復信頼性。
論文 参考訳(メタデータ) (2026-03-24T18:18:30Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models [86.11849528108199]
テレコムデータセット上での細調整大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応するための一般的なプラクティスである。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文 参考訳(メタデータ) (2025-05-29T13:31:51Z) - Studying and Understanding the Effectiveness and Failures of Conversational LLM-Based Repair [3.93048798243871]
自動プログラム修復(APR)は、バグ修正のプロセスを自動化するように設計されている。
会話言語モデル(LLM)を利用した高度なAPR技術は、目覚ましい修復能力を示した。
優位性にもかかわらず、会話型APR技術は依然として多くのバグを修復することができない。
論文 参考訳(メタデータ) (2025-03-19T09:39:32Z) - Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models [48.42142115255159]
命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。
現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。
以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
論文 参考訳(メタデータ) (2024-09-21T21:06:25Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - CREF: An LLM-based Conversational Software Repair Framework for Programming Tutors [8.415004837059863]
既存の修復ベンチマークがLSMのトレーニングデータに影響を与え、データ漏洩を引き起こす可能性があることを認識することが重要である。
本研究は,TutorCode上の12LLMの補修性能,補修精度(TOP-5およびAVG-5)およびパッチ精度(RPSR)を評価する。
LLMの会話能力と強化情報の利点をフル活用するために,人間の教師を支援する対話型半自動修復フレームワークCREFを導入する。
論文 参考訳(メタデータ) (2024-06-20T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。