論文の概要: Mutagenesis screen to map the functionals of parameters of Large Language Models
- arxiv url: http://arxiv.org/abs/2408.11494v1
- Date: Wed, 21 Aug 2024 10:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:27:26.625048
- Title: Mutagenesis screen to map the functionals of parameters of Large Language Models
- Title(参考訳): 大規模言語モデルのパラメータの関数をマップする変異生成画面
- Authors: Yue Hu, Kai Hu, Patrick X. Zhao, Javed Khan, Chengming Xu,
- Abstract要約: 我々は、Llama2-7bとZephyrの生物学的研究で用いられた手法に触発された変異原性スクリーンを用いた。
表現型、特に重篤な結果をもたらす変異は、軸に沿って集結する傾向にあった。
ゼファーでは、特定の突然変異は、記述的なアウトプットよりも詩的な、あるいは会話的な結果をもたらす。
- 参考スコア(独自算出の注目度): 10.19684167876245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly advanced artificial intelligence, excelling in numerous tasks. Although the functionality of a model is inherently tied to its parameters, a systematic method for exploring the connections between the parameters and the functionality are lacking. Models sharing similar structure and parameter counts exhibit significant performance disparities across various tasks, prompting investigations into the varying patterns that govern their performance. We adopted a mutagenesis screen approach inspired by the methods used in biological studies, to investigate Llama2-7b and Zephyr. This technique involved mutating elements within the models' matrices to their maximum or minimum values to examine the relationship between model parameters and their functionalities. Our research uncovered multiple levels of fine structures within both models. Many matrices showed a mixture of maximum and minimum mutations following mutagenesis, but others were predominantly sensitive to one type. Notably, mutations that produced phenotypes, especially those with severe outcomes, tended to cluster along axes. Additionally, the location of maximum and minimum mutations often displayed a complementary pattern on matrix in both models, with the Gate matrix showing a unique two-dimensional asymmetry after rearrangement. In Zephyr, certain mutations consistently resulted in poetic or conversational rather than descriptive outputs. These "writer" mutations grouped according to the high-frequency initial word of the output, with a marked tendency to share the row coordinate even when they are in different matrices. Our findings affirm that the mutagenesis screen is an effective tool for deciphering the complexities of large language models and identifying unexpected ways to expand their potential, providing deeper insights into the foundational aspects of AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非常に高度な人工知能を持ち、多くのタスクに優れています。
モデルの機能はそのパラメータに本質的に結びついているが、パラメータと機能の間の接続を探索する体系的な方法には欠けている。
同様の構造とパラメータ数を共有するモデルは、様々なタスク間で大きなパフォーマンス格差を示し、そのパフォーマンスを管理する様々なパターンについて調査する。
我々は、Llama2-7bとZephyrを解析するために、生物学的研究で用いられる方法にインスパイアされた変異原性スクリーンアプローチを採用した。
この手法は、モデルパラメータとそれらの機能の関係を調べるために、モデルの行列内の要素を最大または最小値に変更することを含む。
私たちの研究は、両方のモデルの中で様々なレベルの微細構造を発見しました。
多くのマトリックスは変異後の最大変異と最小変異の混合を示したが、他のマトリックスは主として1つのタイプに敏感であった。
特に、表現型、特に重篤な結果をもたらす突然変異は、軸に沿って集結する傾向にあった。
さらに、最大と最小の突然変異の位置は、両方のモデルでしばしば相補的なパターンを示し、ゲート行列は再配置後のユニークな2次元の非対称性を示す。
ゼファーでは、特定の突然変異は、記述的なアウトプットよりも詩的な、あるいは会話的な結果をもたらす。
これらの「ライター」突然変異は出力の高周波の初期単語に従ってグループ化され、行列が異なる場合でも行座標を共有する傾向が顕著であった。
我々の研究は、変異発生画面が、大きな言語モデルの複雑さを解読し、その潜在能力を拡大するための予期せぬ方法を特定し、AIシステムの基礎的な側面について深い洞察を与える効果的なツールであることを確認した。
関連論文リスト
- Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Multi-constrained Symmetric Nonnegative Latent Factor Analysis for
Accurately Representing Large-scale Undirected Weighted Networks [2.1797442801107056]
ビッグデータ関連アプリケーションでは、Undirected Weighted Network (UWN) が頻繁に発生する。
解析モデルは、UWNの固有対称性を記述するために、その対称性トポロジーを慎重に考慮する必要がある。
本稿では,2次元アイデアを用いた多制約対称性非負遅延要素分析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T14:13:16Z) - Multi-modal Differentiable Unsupervised Feature Selection [5.314466196448187]
マルチモーダル測定では、両方のモダリティにおける多くの観察された変数は、しばしばニュアンスであり、興味のある現象に関する情報を持っていない。
本稿では,複合高次元計測に基づいて情報変数を同定するマルチモーダルな非教師付き特徴選択フレームワークを提案する。
グラフラプラシアンによって取得された構造の特徴を隠蔽し、精度を高めるため、異なるゲートでスコアを組み込む。
論文 参考訳(メタデータ) (2023-03-16T15:11:17Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - A Graphical Model for Fusing Diverse Microbiome Data [2.385985842958366]
本稿では,このような数値データを共同でモデル化するフレキシブルな多項ガウス生成モデルを提案する。
本稿では、潜在変数とモデルのパラメータを推定するための、計算にスケーラブルな変動予測-最大化(EM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-21T17:54:39Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - A Discrete Variational Recurrent Topic Model without the
Reparametrization Trick [16.54912614895861]
離散確率変数を用いたニューラルトピックモデルの学習方法を示す。
複数のコーパスにまたがってパープレキシティと文書理解が改善された。
論文 参考訳(メタデータ) (2020-10-22T20:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。