論文の概要: Scaling Down Semantic Leakage: Investigating Associative Bias in Smaller Language Models
- arxiv url: http://arxiv.org/abs/2501.06638v1
- Date: Sat, 11 Jan 2025 21:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:03.202040
- Title: Scaling Down Semantic Leakage: Investigating Associative Bias in Smaller Language Models
- Title(参考訳): セマンティックリークのスケールダウン: より小さな言語モデルにおける連想バイアスの調査
- Authors: Veronika Smilga,
- Abstract要約: 私はQwen2.5モデルファミリを使用して、500Mから7Bパラメータの小さなモデルがセマンティックリークを少なくするかどうかを調査しています。
モデルの性能をシステマティックに評価するために、特定の種類のセマンティックアソシエーションに分類された色中心のプロンプトの新しいデータセットを紹介します。
結果は、より小さなモデルでは全体的な意味的リークが少ないことを示しているが、この傾向は厳密に線形ではないことを示している。
- 参考スコア(独自算出の注目度): 0.4944564023471818
- License:
- Abstract: Semantic leakage is a phenomenon recently introduced by Gonen et al. (2024). It refers to a situation in which associations learnt from the training data emerge in language model generations in an unexpected and sometimes undesired way. Prior work has focused on leakage in large language models (7B+ parameters). In this study, I use Qwen2.5 model family to explore whether smaller models, ranging from 500M to 7B parameters, demonstrate less semantic leakage due to their limited capacity for capturing complex associations. Building on the previous dataset from Gonen et al. (2024), I introduce a new dataset of color-focused prompts, categorized into specific types of semantic associations, to systematically evaluate the models' performance. Results indicate that smaller models exhibit less semantic leakage overall, although this trend is not strictly linear, with medium-sized models sometimes surpassing larger ones in leaking behavior. The dataset, the model generations, and the evaluation code are publicly available at https://github.com/smilni/semantic_leakage_project.
- Abstract(参考訳): セマンティックリーク(Semantic leakage)は、Goen et al(2024年)が最近導入した現象である。
訓練データから学習した協会が、予期しない、時には望ましくない方法で言語モデル世代に出現する状況を指す。
以前の研究は、大きな言語モデル(7B+パラメータ)のリークに焦点を当てていた。
本研究ではQwen2.5モデルファミリーを用いて,500Mから7Bパラメータの小さいモデルが,複雑な関連を捉える能力に制限があるため,セマンティックリークが少なくなるかどうかを探索する。
Goen et al (2024) の以前のデータセットに基づいて、モデルの性能を体系的に評価するために、特定のタイプのセマンティックアソシエーションに分類された、色中心のプロンプトの新しいデータセットを紹介します。
この傾向は厳密な線形ではなく、中型モデルは時として漏えい行動においてより大きなものを上回ることが示唆された。
データセット、モデル生成、評価コードはhttps://github.com/smilni/semantic_leakage_projectで公開されている。
関連論文リスト
- Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models [113.58052868898173]
我々は、モデルが予期しない方法でプロンプトから生成元に無関係な情報を漏らす現象を識別し、特徴付けする。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
論文 参考訳(メタデータ) (2024-08-12T22:30:55Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - not-MIWAE: Deep Generative Modelling with Missing not at Random Data [21.977065542645082]
本稿では、欠落したプロセスが欠落したデータに依存している場合に、DLVM(Deep Latent variable Model)を構築し、適合させるアプローチを提案する。
具体的には、深層ニューラルネットワークにより、データから得られる欠損パターンの条件分布を柔軟にモデル化することができる。
欠落したプロセスを明示的にモデル化する様々なデータセットと欠落パターンが有用であることを示す。
論文 参考訳(メタデータ) (2020-06-23T10:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。