論文の概要: Bounds for Learning Lossless Source Coding
- arxiv url: http://arxiv.org/abs/2009.08562v1
- Date: Fri, 18 Sep 2020 00:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:42:21.998722
- Title: Bounds for Learning Lossless Source Coding
- Title(参考訳): ロスレス・ソース・コーディングを学ぶための境界
- Authors: Anders Host-Madsen
- Abstract要約: この記事では、第3のタイプのソースコードコーダーについて考察する。
これらは特定の型のデータに基づいてトレーニングされ、その型の新しいデータをエンコードするために使用されるコーダである。
本稿では,学習者のパフォーマンスの基準として,学習データに対する平均性能と,誤り確率$P_e$を除き,すべてのトレーニングに対する保証性能の2つを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper asks a basic question: how much training is required to beat a
universal source coder? Traditionally, there have been two types of source
coders: fixed, optimum coders such as Huffman coders; and universal source
coders, such as Lempel-Ziv The paper considers a third type of source coders:
learned coders. These are coders that are trained on data of a particular type,
and then used to encode new data of that type. This is a type of coder that has
recently become very popular for (lossy) image and video coding.
The paper consider two criteria for performance of learned coders: the
average performance over training data, and a guaranteed performance over all
training except for some error probability $P_e$. In both cases the coders are
evaluated with respect to redundancy.
The paper considers the IID binary case and binary Markov chains. In both
cases it is shown that the amount of training data required is very moderate:
to code sequences of length $l$ the amount of training data required to beat a
universal source coder is $m=K\frac{l}{\log l}$, where the constant in front
depends the case considered.
- Abstract(参考訳): ユニバーサルソースコードコーダを打ち負かすには,どの程度のトレーニングが必要ですか?
伝統的に、Huffmanコーダーのような修正された最適なコーダーと、Lempel-Zivのような普遍的なソースコードコーダーの2つのタイプのソースコードコーダーがあった。
これらは特定の型のデータに基づいてトレーニングされ、その型の新しいデータをエンコードするために使用されるコーダである。
これは、最近(失われた)画像とビデオのコーディングで非常に人気になったコーダの一種です。
本稿では,学習者のパフォーマンスの基準として,学習データに対する平均性能と,誤りの確率が$P_e$である場合を除き,すべてのトレーニングに対する保証性能の2つを考察する。
いずれの場合も、コーダは冗長性について評価される。
本稿はIID二元体とマルコフ鎖について考察する。
いずれの場合も、必要となるトレーニングデータの量は、非常に適度であることが示される: 長さ$l$のコードシーケンスに対して、ユニバーサルソースコードコーダを打ち負かすのに必要なトレーニングデータの量は$m=K\frac{l}{\log l}$である。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Statement-based Memory for Neural Source Code Summarization [4.024850952459758]
コードの要約は、プログラマのためのソフトウェアドキュメントの基盤となる。
近年,自動コード要約技術の研究のフロンティアとして,ニューラルネットワークの要約が登場している。
本稿では,文ベースのメモリエンコーダを提案し,学習中のフローの重要な要素を学習し,文ベースのサブルーチン表現を実現する。
論文 参考訳(メタデータ) (2023-07-21T17:04:39Z) - TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills [31.75121546422898]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language [13.716669765394293]
我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。
後方翻訳により生成されたC符号の成功率を23.27%向上させる。
論文 参考訳(メタデータ) (2023-03-16T03:38:08Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - StructCoder: Structure-Aware Transformer for Code Generation [13.797842927671846]
本稿では、構文とデータフローの両方をモデル化し、生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - KRNet: Towards Efficient Knowledge Replay [50.315451023983805]
知識再生技術は、継続的な学習や連続的なドメイン適応といった多くのタスクで広く使われている。
本稿では,任意のサンプル識別番号を直接対応するダタムにマッピングする,新規で効率的な知識記録ネットワーク(KRNet)を提案する。
我々のKRNetは、潜在コードに対するストレージコストを著しく削減し、エンコーダのサブネットワークを使わずにトレーニングできる。
論文 参考訳(メタデータ) (2022-05-23T08:34:17Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes [55.32790803903619]
本稿では,クラスだけでなくインスタンスの低次元バイナリコード(LLC)を学習するための新しい手法を提案する。
アノテーション付き属性やラベルメタデータなど,副作用は一切不要です。
学習したコードは、クラスに対して直感的な分類法を発見することによって、データの中で本質的に重要な特徴をキャプチャすることを示した。
論文 参考訳(メタデータ) (2021-06-02T21:57:52Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。