Fugu-MT 論文翻訳(概要): Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark

論文の概要: Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark

arxiv url: http://arxiv.org/abs/2305.17553v2
Date: Sat, 3 Jun 2023 08:01:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 00:28:27.210659
Title: Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark
Title（参考訳）: 大規模言語モデルにおける編集障害の検出: 仕様性ベンチマークの改良
Authors: Jason Hoelscher-Obermaier, Julia Persson, Esben Kran, Ioannis Konstas and Fazl Barez
Abstract要約: 既存のCounterFactベンチマークを動的コンポーネントを含むように拡張し、ベンチマークのCounterFact+をダブします。この改良されたベンチマークを用いて、最近のモデル編集技術の評価を行い、それらが低特異性に悩まされていることを確認する。
参考スコア（独自算出の注目度）: 9.45927470587879
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent model editing techniques promise to mitigate the problem of memorizing false or outdated associations during LLM training. However, we show that these techniques can introduce large unwanted side effects which are not detected by existing specificity benchmarks. We extend the existing CounterFact benchmark to include a dynamic component and dub our benchmark CounterFact+. Additionally, we extend the metrics used for measuring specificity by a principled KL divergence-based metric. We use this improved benchmark to evaluate recent model editing techniques and find that they suffer from low specificity. Our findings highlight the need for improved specificity benchmarks that identify and prevent unwanted side effects.
Abstract（参考訳）: 近年のモデル編集技術は、LLMトレーニング中に偽りや時代遅れの関連を記憶する問題を緩和することを約束している。しかし,これらの手法は既存の特異性ベンチマークでは検出されない大きな副作用をもたらす可能性がある。既存のCounterFactベンチマークを動的コンポーネントを含むように拡張し、ベンチマークのCounterFact+をダブします。さらに,kl発散基準を用いて特異度を測定するためのメトリクスを拡張した。この改良されたベンチマークを用いて、最近のモデル編集手法を評価し、それらが低特異性に悩まされていることを確認する。我々の研究は、望ましくない副作用を特定し予防する改良された特異性ベンチマークの必要性を強調した。

関連論文リスト

Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark [22.238377215355545]
IdentifyMeは、Multiple-choice question (MCQ)形式で提示された参照解決のための新しいベンチマークである。我々は,最先端のサブ10Bオープンモデルとクローズドモデルとの顕著な性能差を観察する。最も高いスコア付けモデルであるGPT-4oは81.9%の精度を実現し、最先端のLCMの強力な参照能力を強調している。
論文参考訳（メタデータ） (2024-11-12T01:05:55Z)
Position: LLM Unlearning Benchmarks are Weak Measures of Progress [31.957968729934745]
既存のベンチマークでは、候補となる未学習手法の有効性について、過度に楽観的で誤解を招く可能性がある。既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。
論文参考訳（メタデータ） (2024-10-03T18:07:25Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文参考訳（メタデータ） (2024-01-03T21:24:44Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。 PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文参考訳（メタデータ） (2023-03-21T15:34:50Z)
Learning Dynamic Compact Memory Embedding for Deformable Visual Object Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。 DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文参考訳（メタデータ） (2021-11-23T03:07:12Z)
A critical analysis of metrics used for measuring progress in artificial intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文参考訳（メタデータ） (2020-08-06T11:14:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。