論文の概要: A Systematic Approach for Large Language Models Debugging
- arxiv url: http://arxiv.org/abs/2604.23027v1
- Date: Fri, 24 Apr 2026 21:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.107724
- Title: A Systematic Approach for Large Language Models Debugging
- Title(参考訳): 大規模言語モデルデバッグのための体系的アプローチ
- Authors: Basel Shbita, Anna Lisa Gentile, Bing Zhang, Sungeun An, Shailja Thakur, Shubhi Asthana, Yi Zhou, Saptha Surendran, Farhan Ahmed, Rohan Kulkarni, Yuya Jeremy Ong, Chad DeLuca, Hima Patel,
- Abstract要約: 大規模言語モデル(LLM)は、オープンエンドテキスト生成から複雑なエージェントベースの推論に至るまで、現代のAIの中心となっている。
本稿では,モデルを可観測系として扱うLLMデバッグの体系的アプローチを提案する。
本手法は,評価,解釈可能性,誤り分析を統一することにより,モデルの弱点を反復的に診断することを可能にする。
- 参考スコア(独自算出の注目度): 9.144050771609637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become central to modern AI workflows, powering applications from open-ended text generation to complex agent-based reasoning. However, debugging these models remains a persistent challenge due to their opaque and probabilistic nature and the difficulty of diagnosing errors across diverse tasks and settings. This paper introduces a systematic approach for LLM debugging that treats models as observable systems, providing structured, model-agnostic methods from issue detection to model refinement. By unifying evaluation, interpretability, and error-analysis practices, our approach enables practitioners to iteratively diagnose model weaknesses, refine prompts and model parameters, and adapt data for fine-tuning or assessment, while remaining effective in contexts where standardized benchmarks and evaluation criteria are lacking. We argue that such a structured methodology not only accelerates troubleshooting but also fosters reproducibility, transparency, and scalability in the deployment of LLM-based systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オープンエンドテキスト生成から複雑なエージェントベースの推論に至るまで、最新のAIワークフローの中心となっている。
しかしながら、これらのモデルのデバッグは、不透明で確率的な性質と、さまざまなタスクや設定でエラーを診断することの難しさのため、永続的な課題である。
本稿では,LLMデバッギングの体系的アプローチとして,モデルを可観測系として扱い,問題検出からモデル修正まで,構造化されたモデルに依存しない手法を提供する。
評価,解釈可能性,エラー分析のプラクティスを統一することにより,標準化されたベンチマークや評価基準が欠如している状況に留まりながら,モデルの弱点を反復的に診断し,プロンプトやモデルパラメータを洗練し,微調整や評価にデータを適用することが可能になる。
我々は,このような構造化手法がトラブルシューティングを加速させるだけでなく,LLMベースのシステムの展開における再現性,透明性,スケーラビリティも促進すると主張している。
関連論文リスト
- AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2026-02-18T14:55:35Z) - When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - Large Language Models in Operations Research: Methods, Applications, and Challenges [9.208082097215314]
オペレーションリサーチ(OR)は、輸送、サプライチェーン管理、生産スケジュールなど、複雑なシステム決定を支援する。
専門家主導のモデリングと手動パラメータチューニングに依存する従来のアプローチは、しばしば大規模、動的、マルチ制約の問題に悩まされる。
本稿では,大規模言語モデル(LLM)をORに適用し,既存の手法を3つの経路に分類する。
論文 参考訳(メタデータ) (2025-09-18T01:52:19Z) - Automated Optimization Modeling through Expert-Guided Large Language Model Reasoning [43.63419208391747]
本稿では,最適化プロセスを自動化するチェーン・オブ・シント推論を通じて,専門家レベルの最適化モデリングの原則を活用する新しいフレームワークを提案する。
また、ロジスティクス領域からの新しい最適化モデリングベンチマークであるLogiORを導入し、標準化されたアノテーションに関するより複雑な問題を含む。
論文 参考訳(メタデータ) (2025-08-20T04:14:54Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。