Fugu-MT 論文翻訳(概要): Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion

論文の概要: Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion

arxiv url: http://arxiv.org/abs/2311.07682v1
Date: Mon, 13 Nov 2023 19:02:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 16:46:50.992930
Title: Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion
Title（参考訳）: fuse to forget:モデル融合によるバイアス低減と選択的記憶
Authors: Kerem Zaman, Leshem Choshen, Shashank Srivastava
Abstract要約: 言語モデルにおいて,モデル融合が学習したショートカット,社会的バイアス,記憶能力にどのように干渉するかについて検討する。脱バイアスツールとしてのモデル融合の可能性を示し、言語モデルに関連するプライバシー問題に対処する上での有効性を示す。
参考スコア（独自算出の注目度）: 24.561550036543306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model fusion research aims to aggregate the knowledge of multiple models to enhance performance by combining their weights. In this work, we study the inverse, investigating whether and how can model fusion interfere and reduce unwanted knowledge. We delve into the effects of model fusion on the evolution of learned shortcuts, social biases, and memorization capabilities in fine-tuned language models. Through several experiments covering text classification and generation tasks, our analysis highlights that shared knowledge among models is usually enhanced during model fusion, while unshared knowledge is usually lost or forgotten. Based on this observation, we demonstrate the potential of model fusion as a debiasing tool and showcase its efficacy in addressing privacy concerns associated with language models.
Abstract（参考訳）: model fusion researchは、複数のモデルの知識を集約し、重みを組み合わせることでパフォーマンスを向上させることを目的としている。本研究では, 融合モデルが不必要な知識を阻害し, 還元できるかどうかを考察する。微調整言語モデルにおける学習された近道,社会的バイアス,記憶能力に及ぼすモデル融合の影響について考察した。テキスト分類と生成タスクに関するいくつかの実験を通じて、モデル間の共有知識は通常モデル融合時に強化されるが、非共有知識は通常失われたり忘れられたりする。本研究は,モデル融合のデバイアス化ツールとしての可能性を実証し,言語モデルに関連するプライバシー問題に対処する上での有効性を示す。

関連論文リスト

Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers [0.0]
大規模言語モデルにおける記憶と一般化の関係について検討する。小さなモデルは未確認の算術の場合に外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。調査の結果、事前学習は本質的に他の学習モードよりも1つの学習モードを好む可能性が示唆された。
論文参考訳（メタデータ） (2025-06-10T14:49:33Z)
Rethinking Weight-Averaged Model-merging [15.2881959315021]
モデルマージはディープラーニングにおける強力なアプローチとして現れ、トレーニングなしでモデルパフォーマンスを向上させることができる。この手法を3つの新しい視点から検討し、なぜ、平均的なモデルマージがどのように機能するかについてより深い知見を提供する。私たちの発見は、平均的なモデルマージの"ブラックボックス"に光を当て、貴重な洞察と実践的なレコメンデーションを提供しました。
論文参考訳（メタデータ） (2024-11-14T08:02:14Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。 FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2024-06-05T13:54:28Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Deep Model Fusion: A Survey [37.39100741978586]
Deep Model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のモデルにマージする、新たなテクニックである。高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。
論文参考訳（メタデータ） (2023-09-27T14:40:12Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。