論文の概要: Diagnosing Robotics Systems Issues with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.09084v1
- Date: Sun, 6 Oct 2024 11:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:48:15.044975
- Title: Diagnosing Robotics Systems Issues with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたロボットシステム問題診断
- Authors: Jordis Emilia Herrmann, Aswath Mandakath Gopinath, Mikael Norrlof, Mark Niklas Müller,
- Abstract要約: 大規模言語モデル(LLM)は大量のデータを分析するのに優れている。
ここでは、この研究を、ロボットシステムの難解で、ほとんど探索されていない領域に拡張する。
- 参考スコア(独自算出の注目度): 5.30112395683561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quickly resolving issues reported in industrial applications is crucial to minimize economic impact. However, the required data analysis makes diagnosing the underlying root causes a challenging and time-consuming task, even for experts. In contrast, large language models (LLMs) excel at analyzing large amounts of data. Indeed, prior work in AI-Ops demonstrates their effectiveness in analyzing IT systems. Here, we extend this work to the challenging and largely unexplored domain of robotics systems. To this end, we create SYSDIAGBENCH, a proprietary system diagnostics benchmark for robotics, containing over 2500 reported issues. We leverage SYSDIAGBENCH to investigate the performance of LLMs for root cause analysis, considering a range of model sizes and adaptation techniques. Our results show that QLoRA finetuning can be sufficient to let a 7B-parameter model outperform GPT-4 in terms of diagnostic accuracy while being significantly more cost-effective. We validate our LLM-as-a-judge results with a human expert study and find that our best model achieves similar approval ratings as our reference labels.
- Abstract(参考訳): 産業アプリケーションで報告された問題の迅速な解決は、経済的影響を最小限に抑えるために不可欠である。
しかし、必要なデータ分析によって、基礎となる根の診断は、専門家にとっても困難で時間を要するタスクを引き起こす。
対照的に、大きな言語モデル(LLM)は大量のデータを分析するのに優れている。
実際、AI-Opsにおける以前の作業は、ITシステムを分析する上での有効性を示している。
ここでは、この研究を、ロボットシステムの難解で、ほとんど探索されていない領域に拡張する。
この目的のために、2500以上の報告された問題を含む、ロボット工学のプロプライエタリなシステム診断ベンチマークであるSYSDIAGBENCHを作成しました。
我々はSYSDIAGBENCHを用いて,LLMの性能を根本原因分析に適用し,モデルサイズと適応手法の幅を考慮して検討する。
以上の結果から,QLoRAの微調整により,GPT-4の診断精度が向上し,費用対効果が著しく向上することが示唆された。
LLM-as-a-judgeの結果を人間の専門家による研究で検証し,基準ラベルと同様の承認評価が得られることを発見した。
関連論文リスト
- Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z) - AD-LLM: Benchmarking Large Language Models for Anomaly Detection [50.57641458208208]
本稿では,大規模な言語モデルが異常検出にどのように役立つかを評価する最初のベンチマークであるAD-LLMを紹介する。
我々は、ゼロショット検出、LLMの事前訓練された知識を用いて、タスク固有のトレーニングなしでADを実行すること、データ拡張、ADモデルを改善するために合成データとカテゴリ記述を生成すること、LLMを使用して教師なしADモデルを提案するモデル選択の3つの主要なタスクについて検討する。
論文 参考訳(メタデータ) (2024-12-15T10:22:14Z) - Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。
我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。
モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文 参考訳(メタデータ) (2024-12-05T14:21:18Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。
この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。
ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。
結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文 参考訳(メタデータ) (2024-06-28T16:03:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Fault Diagnosis using eXplainable AI: a Transfer Learning-based Approach
for Rotating Machinery exploiting Augmented Synthetic Data [0.0]
FaultD-XAIは、移動学習に基づいて回転機械の故障を分類するための汎用的で解釈可能なアプローチである。
伝達学習を用いたスケーラビリティを実現するため、動作中の故障特性を模倣した合成振動信号を作成する。
提案手法は,有望な診断性能を得るだけでなく,専門家が条件を特定するために使用する特徴も学習することができた。
論文 参考訳(メタデータ) (2022-10-06T15:02:35Z) - How Can Subgroup Discovery Help AIOps? [0.0]
サブグループディスカバリがAIOpsにどのように役立つかを研究する。
このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニングの研究者と実践者の両方が含まれる。
論文 参考訳(メタデータ) (2021-09-10T14:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。