論文の概要: Ethos: Rectifying Language Models in Orthogonal Parameter Space
- arxiv url: http://arxiv.org/abs/2403.08994v2
- Date: Mon, 1 Apr 2024 05:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:19:18.752116
- Title: Ethos: Rectifying Language Models in Orthogonal Parameter Space
- Title(参考訳): Ethos: 直交パラメータ空間における言語モデルの定式化
- Authors: Lei Gao, Yue Niu, Tingting Tang, Salman Avestimehr, Murali Annavaram,
- Abstract要約: Ethosは、言語モデルを修正して、出力の毒性とバイアスを軽減し、プライバシリークを回避する。
エトスはタスクベクトルを再構成する際の一般的な有益な知識と望ましくない知識を区別する。
Ethosは、現在のタスク算術法と比較して、望ましくない知識を取り除き、全体のモデル性能を維持するのに効果的である。
- 参考スコア(独自算出の注目度): 18.552630066475807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models (LMs) have greatly propelled the research on natural language processing. However, LMs also raise concerns regarding the generation of biased or toxic content and the potential disclosure of private information from the training dataset. In this work, we present a new efficient approach, Ethos, that rectifies LMs to mitigate toxicity and bias in outputs and avoid privacy leakage. Ethos is built on task arithmetic. However, unlike current task arithmetic algorithms, Ethos distinguishes general beneficial and undesired knowledge when reconstructing task vectors. Specifically, Ethos first obtains a set of principal components from the pre-trained models using singular value decomposition. Then, by projecting the task vector onto principal components, Ethos identifies the principal components that encode general or undesired knowledge. Ethos performs negating using the task vector with undesired knowledge only, thereby minimizing collateral damage on general model utility. We demonstrate the efficacy of our approach on three different tasks: debiasing, detoxification, and memorization unlearning. Evaluations show Ethos is more effective in removing undesired knowledge and maintaining the overall model performance compared to current task arithmetic methods.
- Abstract(参考訳): 言語モデル(LM)は自然言語処理の研究を大いに推進してきた。
しかし、LMはバイアスや有害なコンテンツの生成や、トレーニングデータセットから個人情報を開示する可能性についても懸念を提起する。
本研究では, 毒性と出力バイアスを軽減し, プライバシーの漏洩を回避するために, LMを修正した新しい効率的なアプローチであるEthosを提案する。
Ethosはタスク演算に基づいて構築されている。
しかし、現在のタスク演算アルゴリズムとは異なり、Ethosはタスクベクトルを再構成する際の一般的な有益な知識と望ましくない知識を区別する。
具体的には、エトスはまず特異値分解を用いて事前訓練されたモデルから主成分の集合を得る。
次に、タスクベクトルを主成分に射影することにより、Ethosは一般または望ましくない知識を符号化する主成分を特定する。
Ethosは、望ましくない知識しか持たないタスクベクトルを用いてネガ化を行い、一般的なモデルユーティリティに対する副作用を最小限に抑える。
我々は,脱バイアス,解毒,覚醒の3つの課題に対して,アプローチの有効性を実証した。
評価の結果、Ethosは現在のタスク算術法と比較して、望ましくない知識を取り除き、全体のモデル性能を維持するのに効果的であることが示された。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Orthogonal Subspace Learning for Language Model Continual Learning [45.35861158925975]
O-LoRAは、言語モデルにおける継続学習のためのシンプルで効率的なアプローチである。
提案手法は,パラメータの余分な追加コストのみを誘導し,再生にユーザデータストレージを必要としない。
論文 参考訳(メタデータ) (2023-10-22T02:23:44Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Learning Generalized Relational Heuristic Networks for Model-Agnostic
Planning [29.714818991696088]
本稿では,記号的行動モデルが存在しない場合の一般化を学習するための新しいアプローチを開発する。
データの効率的で一般化可能な学習を容易にするために、抽象状態表現を使用する。
論文 参考訳(メタデータ) (2020-07-10T06:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。