論文の概要: Towards General Conceptual Model Editing via Adversarial Representation Engineering
- arxiv url: http://arxiv.org/abs/2404.13752v1
- Date: Sun, 21 Apr 2024 19:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 17:42:20.303068
- Title: Towards General Conceptual Model Editing via Adversarial Representation Engineering
- Title(参考訳): 逆表現工学による一般概念モデル編集に向けて
- Authors: Yihao Zhang, Zeming Wei, Jun Sun, Meng Sun,
- Abstract要約: 我々は、ARE(Adversarial Representation Engineering)と呼ばれる新しいアプローチを導入する。
AREは、ベースラインのパフォーマンスを劣化させることなく、概念モデル編集のための統一的で解釈可能なフレームワークを提供する。
複数の概念的編集実験により,AREの有効性が確認された。
- 参考スコア(独自算出の注目度): 7.41744853269583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has introduced Representation Engineering (RepE) as a promising approach for understanding complex inner workings of large-scale models like Large Language Models (LLMs). However, finding practical and efficient methods to apply these representations for general and flexible model editing remains an open problem. Inspired by the Generative Adversarial Network (GAN) framework, we introduce a novel approach called Adversarial Representation Engineering (ARE). This method leverages RepE by using a representation sensor to guide the editing of LLMs, offering a unified and interpretable framework for conceptual model editing without degrading baseline performance. Our experiments on multiple conceptual editing confirm ARE's effectiveness. Code and data are available at https://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.
- Abstract(参考訳): 近年,Large Language Models (LLMs) のような大規模モデルの複雑な内部構造を理解するために,RepE (Representation Engineering) を導入している。
しかし、これらの表現を汎用的で柔軟なモデル編集に適用するための実用的で効率的な方法を見つけることは、未解決の問題である。
本稿では、GAN(Generative Adversarial Network)フレームワークにヒントを得て、Adversarial Representation Engineering(ARE)と呼ばれる新しいアプローチを導入する。
本手法は,LLMの編集を誘導する表現センサを用いてRepEを活用し,ベースライン性能を劣化させることなく,概念モデル編集のための統一的で解釈可能なフレームワークを提供する。
複数の概念的編集実験により,AREの有効性が確認された。
コードとデータはhttps://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.comで公開されている。
関連論文リスト
- Beyond development: Challenges in deploying machine learning models for structural engineering applications [2.6415688445750383]
本稿では,2つの具体例を通して,デプロイメントに適した機械学習モデルを開発する上での課題について述べる。
様々な落とし穴の中で、提示された議論は、モデルの過度な適合と過小評価、トレーニングデータ代表性、変数の欠落バイアス、およびクロスバリデーションに焦点を当てている。
その結果、適応サンプリングによる厳密なモデル検証手法の実装の重要性、注意深い物理インフォームド特徴選択、モデルの複雑さと一般化可能性の両方について考察した。
論文 参考訳(メタデータ) (2024-04-18T23:40:42Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Representation Surgery for Multi-Task Model Merging [60.52665037255662]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。