論文の概要: Towards Automated Error Discovery: A Study in Conversational AI
- arxiv url: http://arxiv.org/abs/2509.10833v1
- Date: Sat, 13 Sep 2025 14:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.802186
- Title: Towards Automated Error Discovery: A Study in Conversational AI
- Title(参考訳): 自動エラー発見に向けて:会話型AIの研究
- Authors: Dominic Petrak, Thy Thy Tran, Iryna Gurevych,
- Abstract要約: 本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
- 参考スコア(独自算出の注目度): 48.735443116662026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although LLM-based conversational agents demonstrate strong fluency and coherence, they still produce undesirable behaviors (errors) that are challenging to prevent from reaching users during deployment. Recent research leverages large language models (LLMs) to detect errors and guide response-generation models toward improvement. However, current LLMs struggle to identify errors not explicitly specified in their instructions, such as those arising from updates to the response-generation model or shifts in user behavior. In this work, we introduce Automated Error Discovery, a framework for detecting and defining errors in conversational AI, and propose SEEED (Soft Clustering Extended Encoder-Based Error Detection), as an encoder-based approach to its implementation. We enhance the Soft Nearest Neighbor Loss by amplifying distance weighting for negative samples and introduce Label-Based Sample Ranking to select highly contrastive examples for better representation learning. SEEED outperforms adapted baselines -- including GPT-4o and Phi-4 -- across multiple error-annotated dialogue datasets, improving the accuracy for detecting unknown errors by up to 8 points and demonstrating strong generalization to unknown intent detection.
- Abstract(参考訳): LLMベースの会話エージェントは、強い流布とコヒーレンスを示すが、それでも、デプロイ中にユーザに到達するのを防ぐのが難しい、望ましくない行動(エラー)を発生させる。
近年の研究では、大規模な言語モデル(LLM)を活用してエラーを検出し、応答生成モデルを改善に向けてガイドしている。
しかし、現在のLLMは、応答生成モデルのアップデートやユーザーの振る舞いの変化など、命令で明示的に指定されていないエラーを特定するのに苦労している。
本稿では,会話型AIにおけるエラーの検出と定義を行うフレームワークであるAutomated Error Discoveryを紹介し,その実装に対するエンコーダベースのアプローチとして,SEEED(Soft Clustering Extended Encoder-Based Error Detection)を提案する。
我々は, 正のサンプルに対する距離重み付けを増幅し, ソフトニアネバーロスを強化し, ラベルベースサンプルランキングを導入し, 表現学習の効率化のために, 非常にコントラストの高い例を選択する。
SEEEDは適応ベースライン(GPT-4oやPhi-4など)を複数のエラーアノテートされた対話データセットで上回り、未知のエラーを最大8ポイント検出する精度を改善し、未知の意図の検出に強力な一般化を示す。
関連論文リスト
- Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings [9.763273544617176]
大規模言語モデル(LLM)は、ケース固有の微調整を必要とせずに複雑な対話タスクを処理できることが顕著に示されている。
本稿では,この課題に対処するための,シンプルながら効果的な枠組みを提案する。
本手法は、意図検出や対話状態追跡などのタスクを含む発話ごとの分類問題に特化して設計されている。
論文 参考訳(メタデータ) (2025-03-07T17:46:13Z) - IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。
IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。
IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。