論文の概要: Revision Transformers: Getting RiT of No-Nos
- arxiv url: http://arxiv.org/abs/2210.10332v2
- Date: Fri, 21 Oct 2022 09:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 10:56:45.287344
- Title: Revision Transformers: Getting RiT of No-Nos
- Title(参考訳): Revision Transformers: No-No の RiT 化
- Authors: Felix Friedrich, Wolfgang Stammer, Patrick Schramowski, Kristian
Kersting
- Abstract要約: 現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。
本稿では,情報検索を利用したリビジョントランスフォーマ(RiT)を提案する。
我々は、道徳的データセット上でRiTを例示し、小さなデータであっても、モデルリビジョンにおいて強力なパフォーマンスを示すユーザフィードバックをシミュレートする。
- 参考スコア(独自算出の注目度): 21.645935518842744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current transformer language models (LM) are large-scale models with billions
of parameters. They have been shown to provide high performances on a variety
of tasks but are also prone to shortcut learning and bias. Addressing such
incorrect model behavior via parameter adjustments is very costly. This is
particularly problematic for updating dynamic concepts, such as moral values,
which vary culturally or interpersonally. In this work, we question the current
common practice of storing all information in the model parameters and propose
the Revision Transformer (RiT) employing information retrieval to facilitate
easy model updating. The specific combination of a large-scale pre-trained LM
that inherently but also diffusely encodes world knowledge with a
clear-structured revision engine makes it possible to update the model's
knowledge with little effort and the help of user interaction. We exemplify RiT
on a moral dataset and simulate user feedback demonstrating strong performance
in model revision even with small data. This way, users can easily design a
model regarding their preferences, paving the way for more transparent and
personalized AI models.
- Abstract(参考訳): 現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。
これらは様々なタスクで高いパフォーマンスを提供するが、近道学習やバイアスの傾向も示されている。
このようなパラメータ調整による誤ったモデル動作への対処は非常にコストがかかる。
これは、文化的または対人的に異なる道徳的価値観のような動的な概念を更新する際に特に問題となる。
本研究では,全ての情報をモデルパラメータに格納する現在の一般的な手法に疑問を呈し,情報検索を利用したリビジョントランスフォーマー(RiT)を提案する。
明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。
本稿では、モラルデータセット上のritを例示し、小さなデータでもモデルリビジョンの強いパフォーマンスを示すユーザーフィードバックをシミュレートする。
これにより、ユーザーは好みに関するモデルを簡単に設計でき、より透明でパーソナライズされたAIモデルへの道を開くことができる。
関連論文リスト
- TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - MUSCLE: A Model Update Strategy for Compatible LLM Evolution [29.032461144831053]
大きな言語モデル(LLM)は定期的に更新され、パフォーマンスが向上する。
あるモデルバージョンから別のモデルバージョンへのパフォーマンスのインスタンスレベルの低下(インスタンス回帰)は、特定の言語モデルの能力に関するユーザのメンタルモデルに干渉する可能性がある。
モデル更新におけるインスタンス回帰の程度を最小化するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-07-12T17:12:48Z) - Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文 参考訳(メタデータ) (2020-12-01T09:39:13Z) - Lifting Interpretability-Performance Trade-off via Automated Feature
Engineering [5.802346990263708]
複雑なブラックボックス予測モデルは高い性能を持つが、解釈可能性の欠如は問題を引き起こす。
本稿では, 弾性ブラックボックスを代理モデルとして用いて, よりシンプルで不透明で, 正確かつ解釈可能なガラスボックスモデルを作成する方法を提案する。
論文 参考訳(メタデータ) (2020-02-11T09:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。