論文の概要: Semantic Text Compression for Classification
- arxiv url: http://arxiv.org/abs/2309.10809v1
- Date: Tue, 19 Sep 2023 17:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:01:36.020406
- Title: Semantic Text Compression for Classification
- Title(参考訳): セマンティックテキスト圧縮による分類
- Authors: Emrecan Kutay and Aylin Yener
- Abstract要約: 本研究では,テキストに含まれる意味をソースデコーダに伝達するテキストのセマンティック圧縮について検討する。
そこで,文の埋め込みと意味的歪み量を用いて意味を保存したテキストに対する意味量化と圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 17.259824817932294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study semantic compression for text where meanings contained in the text
are conveyed to a source decoder, e.g., for classification. The main motivator
to move to such an approach of recovering the meaning without requiring exact
reconstruction is the potential resource savings, both in storage and in
conveying the information to another node. Towards this end, we propose
semantic quantization and compression approaches for text where we utilize
sentence embeddings and the semantic distortion metric to preserve the meaning.
Our results demonstrate that the proposed semantic approaches result in
substantial (orders of magnitude) savings in the required number of bits for
message representation at the expense of very modest accuracy loss compared to
the semantic agnostic baseline. We compare the results of proposed approaches
and observe that resource savings enabled by semantic quantization can be
further amplified by semantic clustering. Importantly, we observe the
generalizability of the proposed methodology which produces excellent results
on many benchmark text classification datasets with a diverse array of
contexts.
- Abstract(参考訳): 本研究では,テキストに含まれる意味をソースデコーダに伝達するテキストのセマンティック圧縮について検討する。
正確な再構築を必要とせずに意味を回復するアプローチに移行する主な動機は、保存と他のノードへの情報伝達の両方において、潜在的なリソース節約である。
そこで本論文では,文の埋め込みと意味的歪み量を用いて意味を保存し,意味の量子化と圧縮手法を提案する。
提案手法は, 意味論的ベースラインに比べて, メッセージ表現に必要なビット数を大幅に削減し, 精度の低下を極端に軽減することを示した。
提案手法の結果を比較し,セマンティッククラスタリングにより,セマンティック量子化によって実現されるリソースの節約がさらに増幅されることを示した。
重要なことは、さまざまなコンテキストのベンチマークテキスト分類データセットに優れた結果をもたらす提案手法の一般化性を観察することである。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Crossword: A Semantic Approach to Data Compression via Masking [38.107509264270924]
本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
論文 参考訳(メタデータ) (2023-04-03T16:04:06Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Transferring Semantic Knowledge Into Language Encoders [6.85316573653194]
意味的意味表現から言語エンコーダへ意味的知識を伝達する手法である意味型ミッドチューニングを導入する。
このアライメントは分類や三重項の損失によって暗黙的に学習できることを示す。
提案手法は, 推論, 理解, テキストの類似性, その他の意味的タスクにおいて, 予測性能の向上を示す言語エンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-14T14:11:12Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation [11.624944730002298]
所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2020-03-25T19:24:05Z) - Revisiting Paraphrase Question Generator using Pairwise Discriminator [25.449902612898594]
文レベルの埋め込みを得るための新しい手法を提案する。
提案手法は, 意味的埋め込みを行い, パラフレーズ生成および感情分析タスクにおける最先端技術よりも優れる。
論文 参考訳(メタデータ) (2019-12-31T02:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。