論文の概要: What is a meaningful representation of protein sequences?
- arxiv url: http://arxiv.org/abs/2012.02679v4
- Date: Mon, 7 Mar 2022 08:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 20:03:51.234793
- Title: What is a meaningful representation of protein sequences?
- Title(参考訳): タンパク質配列の有意義な表現とは何か?
- Authors: Nicki Skafte Detlefsen, S{\o}ren Hauberg, Wouter Boomsma
- Abstract要約: データをどのように表現するかは、データから情報を取り出す能力に根本的な影響を与えます。
本稿では,伝達学習と解釈学習という,表現が自然に現れる2つの重要な文脈について考察する。
- 参考スコア(独自算出の注目度): 6.015898117103068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How we choose to represent our data has a fundamental impact on our ability
to subsequently extract information from them. Machine learning promises to
automatically determine efficient representations from large unstructured
datasets, such as those arising in biology. However, empirical evidence
suggests that seemingly minor changes to these machine learning models yield
drastically different data representations that result in different biological
interpretations of data. This begs the question of what even constitutes the
most meaningful representation. Here, we approach this question for
representations of protein sequences, which have received considerable
attention in the recent literature. We explore two key contexts in which
representations naturally arise: transfer learning and interpretable learning.
In the first context, we demonstrate that several contemporary practices yield
suboptimal performance, and in the latter we demonstrate that taking
representation geometry into account significantly improves interpretability
and lets the models reveal biological information that is otherwise obscured.
- Abstract(参考訳): データをどのように表現するかは、データから情報を抽出する能力に根本的な影響を与えます。
機械学習は、生物学で発生するような、大きな非構造化データセットから効率的な表現を自動的に決定することを約束する。
しかしながら、実証的な証拠は、これらの機械学習モデルに一見小さな変更が、データの生物学的解釈に大きく異なるデータ表現をもたらすことを示唆している。
これは、最も意味のある表現を構成するものなのかという疑問を投げかける。
本稿では,最近の文献で注目されているタンパク質配列の表現について,この問題にアプローチする。
本稿では,伝達学習と解釈学習という,表現が自然に現れる2つの重要な文脈について考察する。
第1の文脈では、いくつかの現代的実践が準最適性能をもたらすことを実証し、後者では表現幾何学を考慮に入れることで解釈可能性を大幅に改善し、モデルが不明瞭な生物学的情報を明らかにすることを実証する。
関連論文リスト
- Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Do Neural Networks Trained with Topological Features Learn Different
Internal Representations? [1.418465438044804]
本研究では、トポロジカルな特徴で訓練されたモデルが、元の生データで学習したモデルと根本的に異なるデータの内部表現を学習するかどうかを検討する。
構造的には、トポロジカルな特徴に基づいて訓練・評価されたモデルの隠れ表現は、対応する生データに基づいて訓練・評価されたモデルと大きく異なることがわかった。
これは、生データに基づいてトレーニングされたニューラルネットワークが、予測を行う過程で限られたトポロジ的特徴を抽出することを意味すると推測する。
論文 参考訳(メタデータ) (2022-11-14T19:19:04Z) - Learning multi-scale functional representations of proteins from
single-cell microscopy data [77.34726150561087]
局所化分類に基づいて訓練された単純な畳み込みネットワークは、多様な機能情報をカプセル化したタンパク質表現を学習できることを示す。
また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。
論文 参考訳(メタデータ) (2022-05-24T00:00:07Z) - Latent Feature Representation via Unsupervised Learning for Pattern
Discovery in Massive Electron Microscopy Image Volumes [4.278591555984395]
特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。
動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:14:19Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。