論文の概要: In-Context Learning can distort the relationship between sequence likelihoods and biological fitness
- arxiv url: http://arxiv.org/abs/2504.17068v1
- Date: Wed, 23 Apr 2025 19:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.158002
- Title: In-Context Learning can distort the relationship between sequence likelihoods and biological fitness
- Title(参考訳): In-Context Learningは、シーケンス可能性と生物学的適合性の関係を歪曲することができる
- Authors: Pranav Kantroo, Günter P. Wagner, Benjamin B. Machta,
- Abstract要約: テキスト内学習は、シーケンスの適合度と可能性スコアの関係を歪曲することができることを示す。
この現象は、繰り返しモチーフを含む配列の異常に高い確率スコアとして現れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have emerged as powerful predictors of the viability of biological sequences. During training these models learn the rules of the grammar obeyed by sequences of amino acids or nucleotides. Once trained, these models can take a sequence as input and produce a likelihood score as an output; a higher likelihood implies adherence to the learned grammar and correlates with experimental fitness measurements. Here we show that in-context learning can distort the relationship between fitness and likelihood scores of sequences. This phenomenon most prominently manifests as anomalously high likelihood scores for sequences that contain repeated motifs. We use protein language models with different architectures trained on the masked language modeling objective for our experiments, and find transformer-based models to be particularly vulnerable to this effect. This behavior is mediated by a look-up operation where the model seeks the identity of the masked position by using the other copy of the repeated motif as a reference. This retrieval behavior can override the model's learned priors. This phenomenon persists for imperfectly repeated sequences, and extends to other kinds of biologically relevant features such as reversed complement motifs in RNA sequences that fold into hairpin structures.
- Abstract(参考訳): 言語モデルは生物学的配列の生存可能性の強力な予測因子として登場した。
トレーニング中、これらのモデルはアミノ酸またはヌクレオチドの配列に従う文法の規則を学ぶ。
一度訓練すると、これらのモデルはシーケンスを入力として取り、確率スコアを出力として生成し、高い確率は学習した文法に固執することを示し、実験的な適合度測定と相関する。
ここでは、文脈内学習が、シーケンスの適合度と可能性スコアの関係を歪曲することができることを示す。
この現象は、繰り返しモチーフを含む配列の異常に高い確率スコアとして顕著に現れる。
実験のために、マスク言語モデリングの目的に基づいて訓練された異なるアーキテクチャを持つタンパク質言語モデルを使用し、この効果に特に脆弱なトランスフォーマーベースのモデルを見つける。
この動作は、繰り返しモチーフの他のコピーを参照として使用することにより、モデルがマスクされた位置の同一性を求めるルックアップ操作によって媒介される。
この検索動作は、モデルの学習した事前をオーバーライドすることができる。
この現象は不完全反復配列に持続し、ヘアピン構造に折り畳まれるRNA配列の逆相補モチーフのような他の生物学的に関係のある特徴にまで拡張される。
関連論文リスト
- On the importance of structural identifiability for machine learning with partially observed dynamical systems [0.7864304771129751]
我々は、構造的識別可能性分析を用いて、同一のシステム出力に関連付けられたパラメータ構成を明示的に関連づける。
本研究は,機械学習コミュニティから比較的注目されているトピックである,構造的識別可能性の説明の重要性を実証するものである。
論文 参考訳(メタデータ) (2025-02-06T15:06:52Z) - From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty [67.81977289444677]
大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
転倒行動(シークエンス反復、退化テキスト、幻覚)を分類し、それらを広範囲に分析する。
我々の実験では、これらのすべての軸にまたがる、明確な、一貫したフォールバック動作の順序が明らかになりました。
論文 参考訳(メタデータ) (2024-07-08T16:13:42Z) - Recite, Reconstruct, Recollect: Memorization in LMs as a Multifaceted Phenomenon [22.271015657198927]
我々は記憶を分類学に分解する:高度に複製された配列のリサイクリング、本質的に予測可能なシーケンスの再構築、そしてどちらもないシーケンスのリコール。
依存関係を解析し, 予測モデルの重みを検査することにより, 異なる要因が, 分類学的カテゴリーによって異なる記憶可能性に影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-06-25T17:32:16Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Can a Transformer Pass the Wug Test? Tuning Copying Bias in Neural
Morphological Inflection Models [9.95909045828344]
より効果的にするためには、幻覚過程は個々の文字や幹よりも音節のような長さに注意を払う必要がある。
トレーニングデータとテストデータが補題に重複しない場合に、従来のデータ幻覚法よりも幻覚モデルで有意なパフォーマンス改善を報告します。
論文 参考訳(メタデータ) (2021-04-13T19:51:21Z) - Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction [2.9488233765621295]
アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T17:13:32Z) - Do Neural Models Learn Systematicity of Monotonicity Inference in
Natural Language? [41.649440404203595]
本稿では,ニューラルネットワークが自然言語の単調推論の体系性を学習できるかどうかを評価する手法を提案する。
単調性推論の4つの側面を考察し、モデルが異なるトレーニング/テスト分割における語彙的および論理的現象を体系的に解釈できるかどうかを検証する。
論文 参考訳(メタデータ) (2020-04-30T14:48:39Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。