論文の概要: Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling
- arxiv url: http://arxiv.org/abs/2506.00064v1
- Date: Thu, 29 May 2025 13:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.179156
- Title: Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling
- Title(参考訳): Mis-prompt: アクティブエラー処理のための大規模言語モデルのベンチマーク
- Authors: Jiayi Zeng, Yizhe Feng, Mengliang He, Wenhui Lei, Wei Zhang, Zeming Liu, Xiaoming Shi, Aimin Zhou,
- Abstract要約: 大規模言語モデル(LLM)はエラー処理の大幅な進歩を示している。
現実のシナリオでは、明示的なエラー処理命令は通常利用できない。
この研究は、新しいベンチマークであるMis-promptを導入し、4つの評価タスク、エラーカテゴリ分類、新しい評価データセットからなる。
- 参考スコア(独自算出の注目度): 12.548079566775257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated significant advancements in error handling. Current error-handling works are performed in a passive manner, with explicit error-handling instructions. However, in real-world scenarios, explicit error-handling instructions are usually unavailable. In this paper, our work identifies this challenge as how to conduct proactive error handling without explicit error handling instructions. To promote further research, this work introduces a new benchmark, termed Mis-prompt, consisting of four evaluation tasks, an error category taxonomy, and a new evaluation dataset. Furthermore, this work analyzes current LLMs' performance on the benchmark, and the experimental results reveal that current LLMs show poor performance on proactive error handling, and SFT on error handling instances improves LLMs' proactive error handling capabilities. The dataset will be publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)はエラー処理の大幅な進歩を示している。
現在のエラー処理作業は、明示的なエラー処理命令で受動的に実行される。
しかし、現実のシナリオでは、明示的なエラー処理命令は通常利用できない。
本稿では,この課題を,明示的なエラー処理命令を使わずに,積極的にエラー処理を行う方法として認識する。
さらなる研究を促進するために,4つの評価タスク,エラーカテゴリ分類,新しい評価データセットからなるMis-promptと呼ばれる新しいベンチマークを導入する。
さらに,本研究は,現在のLLMの性能をベンチマークで解析し,その実験結果から,現在のLLMはプロアクティブエラーハンドリング性能が低く,エラーハンドリングインスタンスのSFTはプロアクティブエラーハンドリング能力を向上していることが明らかとなった。
データセットは一般公開される予定だ。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Concurrent Linguistic Error Detection (CLED) for Large Language Models [13.01669288397494]
大規模言語モデル(LLM)に対する同時言語誤り検出(CLED)を提案する。
CLEDはLLMによって生成されたテキストの言語的特徴を抽出し、エラーを検出する同時分類器に供給する。
提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。
論文 参考訳(メタデータ) (2024-03-25T03:17:27Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - Evaluating the Capability of Large-scale Language Models on Chinese Grammatical Error Correction Task [8.655807096424732]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。