論文の概要: ImmunoLingo: Linguistics-based formalization of the antibody language
- arxiv url: http://arxiv.org/abs/2209.12635v1
- Date: Mon, 26 Sep 2022 12:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:11:57.030339
- Title: ImmunoLingo: Linguistics-based formalization of the antibody language
- Title(参考訳): イムノリンゴ:言語による抗体言語の定式化
- Authors: Mai Ha Vu, Philippe A. Robert, Rahmad Akbar, Bartlomiej Swiatczak,
Geir Kjetil Sandve, Dag Trygve Truslew Haug, Victor Greiff
- Abstract要約: 自然言語と生物学的配列の明瞭な平行関係は、深層言語モデル(LM)の適用の急激な増加につながった。
生物学的配列言語の厳密な言語形式化の欠如は、主にLMのドメイン非特異的な応用に繋がった。
言語形式化は、言語的にインフォームドされ、したがって、LMアプリケーションのためのドメイン適応コンポーネントを確立する。
- 参考スコア(独自算出の注目度): 0.5412332666265471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Apparent parallels between natural language and biological sequence have led
to a recent surge in the application of deep language models (LMs) to the
analysis of antibody and other biological sequences. However, a lack of a
rigorous linguistic formalization of biological sequence languages, which would
define basic components, such as lexicon (i.e., the discrete units of the
language) and grammar (i.e., the rules that link sequence well-formedness,
structure, and meaning) has led to largely domain-unspecific applications of
LMs, which do not take into account the underlying structure of the biological
sequences studied. A linguistic formalization, on the other hand, establishes
linguistically-informed and thus domain-adapted components for LM applications.
It would facilitate a better understanding of how differences and similarities
between natural language and biological sequences influence the quality of LMs,
which is crucial for the design of interpretable models with extractable
sequence-functions relationship rules, such as the ones underlying the antibody
specificity prediction problem. Deciphering the rules of antibody specificity
is crucial to accelerating rational and in silico biotherapeutic drug design.
Here, we formalize the properties of the antibody language and thereby
establish not only a foundation for the application of linguistic tools in
adaptive immune receptor analysis but also for the systematic immunolinguistic
studies of immune receptor specificity in general.
- Abstract(参考訳): 自然言語と生物学的配列の明らかな類似性は、抗体やその他の生物学的配列の解析への深層言語モデル(LM)の適用の近年の急増につながっている。
しかし、生物学的シーケンス言語の厳密な言語形式化の欠如は、レキシコン(すなわち、言語の離散単位)や文法(すなわち、配列の健全な形式性、構造、意味をリンクする規則)のような基本的な構成要素を定義するため、研究された生物学的シーケンスの基盤構造を考慮しない、lmsの領域非特異的な応用へと導かれる。
一方、言語形式化は、言語的にインフォームドされ、したがって、LMアプリケーションのためのドメイン適応コンポーネントを確立する。
これは、自然言語と生物学的配列の違いと類似性がLMの品質にどのように影響するかをよりよく理解し、抗体特異性予測問題の根底にあるもののような、抽出可能な配列-機能関係ルールを持つ解釈可能なモデルの設計に不可欠である。
抗体特異性の規則の解読は、合理的かつシリコバイオセラピー薬の設計を加速させるのに不可欠である。
ここでは、抗体言語の特性を定式化し、適応免疫受容体解析における言語ツールの応用の基礎のみならず、一般に免疫受容体特異性の体系的免疫言語学的研究の基礎を確立する。
関連論文リスト
- Evaluating Morphological Compositional Generalization in Large Language Models [17.507983593566223]
大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文 参考訳(メタデータ) (2024-10-16T15:17:20Z) - Linguistic Structure from a Bottleneck on Sequential Information Processing [5.850665541267672]
予測情報によって制約されたコードに自然言語のような体系性が生じることを示す。
人間の言語は、音韻学、形態学、構文学、意味論のレベルにおいて、低い予測情報を持つように構成されている。
論文 参考訳(メタデータ) (2024-05-20T15:25:18Z) - How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Linguistic laws in biology [0.13812010983144798]
言語法則は1世紀近くにわたって定量的言語学者によって研究されてきた。
様々な分野の生物学者たちは、言語を超えたこれらの法則の流行を探求し始めている。
本稿では,生物学における言語法則研究のための新しい概念的枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:08:20Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Linguistically inspired roadmap for building biologically reliable
protein language models [0.5412332666265471]
言語学から引き出されたガイダンスは、より解釈可能なタンパク質のLMを構築するのに役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
論文 参考訳(メタデータ) (2022-07-03T08:42:44Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Where New Words Are Born: Distributional Semantic Analysis of Neologisms
and Their Semantic Neighborhoods [51.34667808471513]
分散意味論のパラダイムで定式化されたセマンティック隣人のセマンティック・スパシティと周波数成長率という2つの要因の重要性について検討する。
いずれの因子も単語の出現を予測できるが,後者の仮説はより支持される。
論文 参考訳(メタデータ) (2020-01-21T19:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。