論文の概要: Compressibility of Distributed Document Representations
- arxiv url: http://arxiv.org/abs/2110.07595v1
- Date: Thu, 14 Oct 2021 17:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:48:56.363706
- Title: Compressibility of Distributed Document Representations
- Title(参考訳): 分散文書表現の圧縮性
- Authors: Bla\v{z} \v{S}krlj and Matej Petkovi\v{c}
- Abstract要約: CoReは表現圧縮に適した表現学習者に依存しないフレームワークである。
文脈的および非文脈的文書表現、異なる圧縮レベル、および9つの異なる圧縮アルゴリズムを考慮すると、CoReの振る舞いを示す。
10万以上の圧縮実験に基づく結果から、CoReは圧縮効率と性能の非常に良いトレードオフを提供することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary natural language processing (NLP) revolves around learning from
latent document representations, generated either implicitly by neural language
models or explicitly by methods such as doc2vec or similar. One of the key
properties of the obtained representations is their dimension. Whilst the
commonly adopted dimensions of 256 and 768 offer sufficient performance on many
tasks, it is many times unclear whether the default dimension is the most
suitable choice for the subsequent downstream learning tasks. Furthermore,
representation dimensions are seldom subject to hyperparameter tuning due to
computational constraints. The purpose of this paper is to demonstrate that a
surprisingly simple and efficient recursive compression procedure can be
sufficient to both significantly compress the initial representation, but also
potentially improve its performance when considering the task of text
classification. Having smaller and less noisy representations is the desired
property during deployment, as orders of magnitude smaller models can
significantly reduce the computational overload and with it the deployment
costs. We propose CoRe, a straightforward, representation learner-agnostic
framework suitable for representation compression. The CoRe's performance is
showcased and studied on a collection of 17 real-life corpora from biomedical,
news, social media, and literary domains. We explored CoRe's behavior when
considering contextual and non-contextual document representations, different
compression levels, and 9 different compression algorithms. Current results
based on more than 100,000 compression experiments indicate that recursive
Singular Value Decomposition offers a very good trade-off between the
compression efficiency and performance, making CoRe useful in many existing,
representation-dependent NLP pipelines.
- Abstract(参考訳): 現代自然言語処理(nlp)は、潜在文書表現から学ぶことを中心に、ニューラルネットワークモデルによって暗黙的に生成されたり、doc2vecなどのメソッドによって明示的に生成されたりする。
得られた表現の重要な性質の1つは、その次元である。
一般的に採用されている256次元と768次元は、多くのタスクで十分なパフォーマンスを提供するが、デフォルト次元がその後のダウンストリーム学習タスクに最も適しているかどうかは不明である。
さらに、表現次元は計算制約によりハイパーパラメータチューニングを受けることがほとんどない。
本研究の目的は,テキスト分類作業において,初期表現を著しく圧縮するには驚くほどシンプルで効率的な再帰的圧縮処理が十分であるだけでなく,その性能を向上させることにある。
小さくてノイズの少ない表現を持つことは、デプロイ時に望ましい特性であり、桁違いに小さいモデルは計算上の過負荷を大幅に削減し、デプロイコストを削減できる。
本稿では,表現圧縮に適した表現学習者に依存しないフレームワークであるCoReを提案する。
CoReのパフォーマンスは、バイオメディカル、ニュース、ソーシャルメディア、文学ドメインから17のリアルライフコーパスのコレクションで展示され、研究されている。
本研究では,文脈的および非文脈的文書表現,異なる圧縮レベル,9つの異なる圧縮アルゴリズムについて検討した。
10万以上の圧縮実験に基づく現在の結果は、再帰的特異値分解が圧縮効率と性能の間に非常に良いトレードオフをもたらし、CoReは既存の表現依存NLPパイプラインの多くで有用であることを示している。
関連論文リスト
- Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation [28.432799973328127]
圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。
提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
論文 参考訳(メタデータ) (2022-03-15T07:05:43Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - SDR: Efficient Neural Re-ranking using Succinct Document Representation [4.9278175139681215]
本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
論文 参考訳(メタデータ) (2021-10-03T07:43:16Z) - Efficient Inference via Universal LSH Kernel [35.22983601434134]
本稿では,単純なハッシュ計算と集約で推論手順を近似できる数列の簡潔な集合である,数学的に証明可能なRepresenter Sketchを提案する。
Representer Sketchは、カーネル文学から人気のあるRepresenter Theoremの上に構築されている。
本研究では,Representer Sketchによるストレージ要件の最大114倍,複雑性の最大59倍を精度の低下なく達成できることを示す。
論文 参考訳(メタデータ) (2021-06-21T22:06:32Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Dimensionality Reduction for Sentiment Classification: Evolving for the
Most Prominent and Separable Features [4.156782836736784]
感情分類において、膨大なテキストデータ、その膨大な次元、および固有のノイズは、機械学習分類器が高レベルで複雑な抽象化を抽出することが極めて困難である。
既存の次元削減技術では、コンポーネントの数を手動で設定する必要があるため、最も顕著な特徴が失われる。
我々は,2次元化技術であるSentiment Term Presence Count(SentiTPC)とSentiment Term Presence Ratio(SentiTPR)からなる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:46:52Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。