論文の概要: Teaching People LLM's Errors and Getting it Right
- arxiv url: http://arxiv.org/abs/2512.21422v1
- Date: Wed, 24 Dec 2025 20:53:07 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:55:58.359954
- Title: Teaching People LLM's Errors and Getting it Right
- Title(参考訳): LLMの誤りを教え、それを正しくする
- Authors: Nathan Stringham, Fateme Hashemi Chaleshtori, Xinyuan Yan, Zhichao Xu, Bei Wang, Ana Marasović,
- Abstract要約: 人々は、すべきでないときに大きな言語モデル(LLM)を使用します。
以前の作業では、LLMが失敗する可能性のあるリージョンにインスタンスの埋め込みをクラスタ化することで、この問題に対処しようとしていた。
見つかった障害パターンは、過剰な信頼性を軽減するためにユーザに教えられます。
- 参考スコア(独自算出の注目度): 5.213248158569623
- License:
- Abstract: People use large language models (LLMs) when they should not. This is partly because they see LLMs compose poems and answer intricate questions, so they understandably, but incorrectly, assume LLMs won't stumble on basic tasks like simple arithmetic. Prior work has tried to address this by clustering instance embeddings into regions where an LLM is likely to fail and automatically describing patterns in these regions. The found failure patterns are taught to users to mitigate their overreliance. Yet, this approach has not fully succeeded. In this analysis paper, we aim to understand why. We first examine whether the negative result stems from the absence of failure patterns. We group instances in two datasets by their meta-labels and evaluate an LLM's predictions on these groups. We then define criteria to flag groups that are sizable and where the LLM is error-prone, and find meta-label groups that meet these criteria. Their meta-labels are the LLM's failure patterns that could be taught to users, so they do exist. We next test whether prompting and embedding-based approaches can surface these known failures. Without this, users cannot be taught about them to reduce their overreliance. We find mixed results across methods, which could explain the negative result. Finally, we revisit the final metric that measures teaching effectiveness. We propose to assess a user's ability to effectively use the given failure patterns to anticipate when an LLM is error-prone. A user study shows a positive effect from teaching with this metric, unlike the human-AI team accuracy. Our findings show that teaching failure patterns could be a viable approach to mitigating overreliance, but success depends on better automated failure-discovery methods and using metrics like ours.
- Abstract(参考訳): 人々は、すべきでないときに大きな言語モデル(LLM)を使用します。
これは、LLMが詩を作成し、複雑な質問に答えるのを見るためである。
以前の作業では、LLMが失敗する可能性のあるリージョンにインスタンスの埋め込みをクラスタ化して、これらのリージョンのパターンを自動記述することで、この問題に対処しようとしていた。
見つかった障害パターンは、過剰な信頼性を軽減するためにユーザに教えられます。
しかし、このアプローチは完全には成功していない。
本稿では,その理由を理解することを目的としている。
まず、負の結果が失敗パターンの欠如に起因するかどうかを検討する。
2つのデータセットのインスタンスをメタラベルでグループ化し、これらのグループでLCMの予測を評価する。
次に、LLMがエラーを起こしやすいグループをフラグする基準を定義し、これらの基準を満たすメタラベルグループを見つける。
彼らのメタラベルはLSMの失敗パターンであり、ユーザに教えられるので、それらは存在する。
次に、プロンプトと埋め込みベースのアプローチが既知の障害を表面化するかどうかをテストする。
これなしでは、ユーザーは過度な信頼を減らそうと教えられません。
提案手法間の混合結果が得られ, 負の結果が説明できる。
最後に,教育効果を計測する最終指標を再考する。
LLMがエラーを起こしやすい場合に、与えられた障害パターンを効果的に利用し、予測するユーザの能力を評価することを提案する。
ユーザスタディでは、人間-AIチームの正確さとは異なり、このメトリクスで教えることによるポジティブな効果が示されています。
私たちの調査によると、障害パターンを教えることは、過信を緩和するための実行可能なアプローチである可能性があるが、成功は、より優れた自動障害発見方法と、私たちのようなメトリクスの使用に依存している。
関連論文リスト
- Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文 参考訳(メタデータ) (2025-10-08T05:17:33Z) - DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。