論文の概要: Quasi-orthonormal Encoding for Machine Learning Applications
- arxiv url: http://arxiv.org/abs/2006.00038v1
- Date: Fri, 29 May 2020 19:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 22:55:25.439398
- Title: Quasi-orthonormal Encoding for Machine Learning Applications
- Title(参考訳): 機械学習応用のための準正規符号化
- Authors: Haw-minn Lu
- Abstract要約: 共通符号化方式の利点と欠点を簡潔に述べる。
ワンホット符号化は、いくつかの無関係なカテゴリを持つ属性に対して一般的に使用される。
準正規符号化(QOE)はギャップを埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most machine learning models, especially artificial neural networks, require
numerical, not categorical data. We briefly describe the advantages and
disadvantages of common encoding schemes. For example, one-hot encoding is
commonly used for attributes with a few unrelated categories and word
embeddings for attributes with many related categories (e.g., words). Neither
is suitable for encoding attributes with many unrelated categories, such as
diagnosis codes in healthcare applications. Application of one-hot encoding for
diagnosis codes, for example, can result in extremely high dimensionality with
low sample size problems or artificially induce machine learning artifacts, not
to mention the explosion of computing resources needed. Quasi-orthonormal
encoding (QOE) fills the gap. We briefly show how QOE compares to one-hot
encoding. We provide example code of how to implement QOE using popular ML
libraries such as Tensorflow and PyTorch and a demonstration of QOE to MNIST
handwriting samples.
- Abstract(参考訳): ほとんどの機械学習モデル、特に人工ニューラルネットワークは、分類データではなく数値を必要とする。
共通符号化方式の利点と欠点を簡潔に述べる。
例えば、ワンホットエンコーディングは、いくつかの無関係なカテゴリを持つ属性と、関連するカテゴリ(例えば、単語)を持つ属性のための単語埋め込みに一般的に使用される。
医療アプリケーションにおける診断コードなど、多くの無関係なカテゴリの属性のエンコーディングにも適していない。
例えば、診断コードへのone-hotエンコーディングの適用は、必要となる計算リソースの爆発を言うまでもなく、サンプルサイズの問題や人工的に機械学習アーティファクトを誘導する非常に高い次元をもたらす可能性がある。
準orthonormal encoding (qoe) がそのギャップを埋める。
QOEとワンホットエンコーディングを比較した。
本稿では、TensorflowやPyTorchといった一般的なMLライブラリを用いたQOEの実装例と、MNISTの筆跡サンプルに対するQOEのデモについて述べる。
関連論文リスト
- Can Geometric Quantum Machine Learning Lead to Advantage in Barcode Classification? [16.34646723046073]
埋め込み対称性を持つ幾何量子機械学習(GQML)アプローチを開発する。
量子ネットワークが従来のネットワークよりも優れていることを示す。
アドバンテージを実現する能力は、データのロード方法に大きく依存するが、量子機械学習の利点と類似した問題を論じる。
論文 参考訳(メタデータ) (2024-09-02T23:34:52Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - A Two-Stage Decoder for Efficient ICD Coding [10.634394331433322]
ICD符号の予測のための2段階復号機構を提案する。
まず、まず親コードを予測し、その子コードを前回の予測に基づいて予測する。
公開MIMIC-IIIデータセット実験により,本モデルが単一モデル設定で良好に動作することを示す。
論文 参考訳(メタデータ) (2023-05-27T17:25:13Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Geometry encoding for numerical simulations [0.0]
機械学習に基づく数値シミュレーションに適したジオメトリ符号化の概念を提示する。
特に、このエンコーディングの概念が、他の分野で一般的に使用される他のエンコーディングアルゴリズムとどのように異なるかを説明する。
また,プロセッサ,圧縮機,評価器を含む複数のニューラルネットワークで構成されるモデルを提案する。
論文 参考訳(メタデータ) (2021-04-15T21:56:28Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。