論文の概要: Long-form evaluation of model editing
- arxiv url: http://arxiv.org/abs/2402.09394v1
- Date: Wed, 14 Feb 2024 18:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:56:57.673271
- Title: Long-form evaluation of model editing
- Title(参考訳): モデル編集のロングフォーム評価
- Authors: Domenic Rosati, Robie Gonzales, Jinkun Chen, Xuemin Yu, Melis Erkan,
Yahya Kayani, Satya Deepika Chavatapalli, Frank Rudzicz, Hassan Sajjad
- Abstract要約: 本稿では,長文生成環境におけるモデル編集の有効性と効果を評価する新しい評価プロトコルを提案する。
いくつかの手法(ROMEとMEMIT)は、限られた範囲内で一貫した編集を行うのによく機能するが、他の方法よりも現実的なドリフトに悩まされている。
- 参考スコア(独自算出の注目度): 22.36551769426778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluations of model editing currently only use the `next few token'
completions after a prompt. As a result, the impact of these methods on longer
natural language generation is largely unknown. We introduce long-form
evaluation of model editing (\textbf{\textit{LEME}}) a novel evaluation
protocol that measures the efficacy and impact of model editing in long-form
generative settings. Our protocol consists of a machine-rated survey and a
classifier which correlates well with human ratings. Importantly, we find that
our protocol has very little relationship with previous short-form metrics
(despite being designed to extend efficacy, generalization, locality, and
portability into a long-form setting), indicating that our method introduces a
novel set of dimensions for understanding model editing methods. Using this
protocol, we benchmark a number of model editing techniques and present several
findings including that, while some methods (ROME and MEMIT) perform well in
making consistent edits within a limited scope, they suffer much more from
factual drift than other methods. Finally, we present a qualitative analysis
that illustrates common failure modes in long-form generative settings
including internal consistency, lexical cohesion, and locality issues.
- Abstract(参考訳): モデル編集の評価は現在、プロンプトの後に 'next few token' 補完のみを使用する。
その結果、これらの手法がより長い自然言語生成に与える影響はほとんど不明である。
本稿では,モデル編集の有効性と効果を評価する新しい評価プロトコルとして,モデル編集の長文評価(\textbf{\textit{LEME}})を導入する。
我々のプロトコルは,人間の評価とよく相関する,機械評価調査と分類器から構成される。
重要な点として,提案手法は従来の短距離メトリクス(有効性,一般化,局所性,ポータビリティをロングフォームに拡張するように設計されている)とはほとんど関係がないこと,モデル編集手法を理解するための新たな次元セットを導入すること,などがあげられる。
本プロトコルを用いて,多数のモデル編集手法をベンチマークし,いくつかの手法(ROMEとMEMIT)が一定の範囲内で一貫した編集を行うのに対して,他の手法よりも現実的なドリフトに悩まされていることを示す。
最後に, 内部一貫性, 語彙結合, 局所性問題など, 長期生成環境における一般的な障害モードを示す定性解析を行う。
関連論文リスト
- KEBench: A Benchmark on Knowledge Editing for Large Vision-Language
Models [52.11803779918731]
LVLM(Large Vision-Language Models)の編集は、さまざまなモダリティ(画像とテキスト)を統合すると同時に、一貫性とコンテキストに関連のある修正を保証する。
既存のベンチマークには、LVLMの知識編集を測定するための3つのメトリクス(信頼性、局所性、一般性)がある。
我々は、新しいベンチマークを構築するために異なるデータ収集メソッド、$textbfKEBench$を採用し、包括的な評価のために新しいメトリック(移植性)を拡張します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Propagation and Pitfalls: Reasoning-based Assessment of Knowledge
Editing through Counterfactual Tasks [36.292901021210575]
ReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入する。
我々は既存の知識編集技術を徹底的に分析し、入力強化、微調整、位置と編集を行う。
全てのモデル編集手法は、特に特定の推論スキームにおいて、このデータセットで顕著に低い性能を示す。
論文 参考訳(メタデータ) (2024-01-31T04:12:59Z) - Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.887477629420772]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。
モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文 参考訳(メタデータ) (2024-01-15T03:57:15Z) - Fast and Accurate Factual Inconsistency Detection Over Long Documents [19.86348214462828]
我々は,新しいチャンキング戦略を用いて,現実の不整合を検出するタスク非依存モデルであるSCALEを紹介する。
このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。
コードとデータはGitHubに公開しています。
論文 参考訳(メタデータ) (2023-10-19T22:55:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Pros and Cons of GAN Evaluation Measures: New Developments [53.10151901863263]
この作品は、数年前に発表された同じトピックに関する以前の論文の更新です。
モデル評価において重要になっている新しい次元について述べ、GAN評価とディープフェイクの関係について論じる。
論文 参考訳(メタデータ) (2021-03-17T01:48:34Z) - Rethinking Online Action Detection in Untrimmed Videos: A Novel Online
Evaluation Protocol [9.3576825415122]
オンラインアクション検出(OAD)問題を再検討する必要がある。
従来のオフラインアクション検出アプローチとは異なり、OAD設定では、非常に少ない作業と、使用する評価プロトコルに関するコンセンサスがないことが分かりました。
本稿では,OADのシナリオを再考し,問題そのものと,オンラインとみなすモデルが従わなければならない主な特徴を明確に定義する。
論文 参考訳(メタデータ) (2020-03-26T17:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。