論文の概要: TexShape: Information Theoretic Sentence Embedding for Language Models
- arxiv url: http://arxiv.org/abs/2402.05132v2
- Date: Sat, 11 May 2024 20:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 00:13:55.204626
- Title: TexShape: Information Theoretic Sentence Embedding for Language Models
- Title(参考訳): TexShape: 言語モデルのための情報理論文埋め込み
- Authors: Kaan Kale, Homa Esfahanizadeh, Noel Elias, Oguzhan Baser, Muriel Medard, Sriram Vishwanath,
- Abstract要約: 本稿では,情報理論のレンズを用いて,文を最適化された表現に符号化する際の課題について論じる。
我々は、Kulback-Leibler分散のDonsker-Varadhan定義を用いて、相互情報の実証的な推定を行う。
本実験は, 最大目標情報と最小機密情報を, 負圧縮比で保持する上で, 顕著な進歩を示すものである。
- 参考スコア(独自算出の注目度): 5.265661844206274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the exponential growth in data volume and the emergence of data-intensive applications, particularly in the field of machine learning, concerns related to resource utilization, privacy, and fairness have become paramount. This paper focuses on the textual domain of data and addresses challenges regarding encoding sentences to their optimized representations through the lens of information-theory. In particular, we use empirical estimates of mutual information, using the Donsker-Varadhan definition of Kullback-Leibler divergence. Our approach leverages this estimation to train an information-theoretic sentence embedding, called TexShape, for (task-based) data compression or for filtering out sensitive information, enhancing privacy and fairness. In this study, we employ a benchmark language model for initial text representation, complemented by neural networks for information-theoretic compression and mutual information estimations. Our experiments demonstrate significant advancements in preserving maximal targeted information and minimal sensitive information over adverse compression ratios, in terms of predictive accuracy of downstream models that are trained using the compressed data.
- Abstract(参考訳): データボリュームの指数的な増加と、特に機械学習分野におけるデータ集約型アプリケーションの出現により、資源利用、プライバシ、公平性に関する懸念が最重要になっている。
本稿では,データのテキスト領域に焦点をあて,情報理論のレンズを通して文を最適化された表現に符号化する際の課題に対処する。
特に、Kulback-Leibler分散のDonsker-Varadhan定義を用いて、相互情報の経験的推定を用いる。
我々の手法は、この推定を利用して、(タスクベースの)データ圧縮や機密情報のフィルタリング、プライバシーと公正性の強化のために、TexShapeと呼ばれる情報理論文の埋め込みを訓練する。
本研究では,情報理論圧縮と相互情報推定のためのニューラルネットワークによって補完される初期テキスト表現のためのベンチマーク言語モデルを用いる。
本実験は, 圧縮データを用いてトレーニングした下流モデルの予測精度の観点から, 最大目標情報と低感度情報を保存する上で, 顕著な進歩を示すものである。
関連論文リスト
- Maintaining Informative Coherence: Migrating Hallucinations in Large Language Models via Absorbing Markov Chains [6.920249042435973]
大規模言語モデル(LLM)は、テキスト生成、翻訳、要約のための強力なツールである。
LLMは、文脈情報の忠実さとコヒーレンスを維持するのに失敗する幻覚症状に悩まされることが多い。
本稿では,マルコフ連鎖を吸収し,文脈情報の重要性を定量化する新しい復号手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T04:51:18Z) - Enhancing AI-based Generation of Software Exploits with Contextual Information [9.327315119028809]
この研究では、実際のシェルコードからなるデータセットを使用して、さまざまなシナリオでモデルを評価する。
実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。
モデルは不要なコンテキストをフィルタリングし、攻撃的なセキュリティコードの生成において高いレベルの精度を維持する能力を示している。
論文 参考訳(メタデータ) (2024-08-05T11:52:34Z) - Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - Compressed Predictive Information Coding [6.220929746808418]
我々は,動的データから有用な表現を抽出する新しい情報理論フレームワーク,Compressed Predictive Information Coding (CPIC) を開発した。
我々はCPIC損失の変動境界を導出し、最大予測可能な情報を取得するために潜時空間を誘導する。
我々はCPICが低信号対雑音比で雑音力学系の潜時空間を復元できることを実証した。
論文 参考訳(メタデータ) (2022-03-03T22:47:58Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Learning Optimal Representations with the Decodable Information
Bottleneck [43.30367159353152]
機械学習では、我々のゴールは圧縮ではなく、むしろ一般化であり、予測ファミリや関心のデコーダと密接に関連している。
本稿では,情報保持と圧縮を所望の予測族の観点から考慮した,情報保持可能な情報ボトルネック(DIB)を提案する。
結果として、DIBは期待されるテスト性能の観点で最適であり、保証とともに推定できる表現を生み出します。
論文 参考訳(メタデータ) (2020-09-27T08:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。