論文の概要: Learning to Abstract with Nonparametric Variational Information
Bottleneck
- arxiv url: http://arxiv.org/abs/2310.17284v1
- Date: Thu, 26 Oct 2023 10:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:59:02.595747
- Title: Learning to Abstract with Nonparametric Variational Information
Bottleneck
- Title(参考訳): 非パラメトリック変分情報ボトルネックによる抽象学習
- Authors: Melika Behjati, Fabio Fehr, James Henderson
- Abstract要約: 同じモデルの異なる層で異なる抽象レベルに圧縮する方法を学ぶことができる新しい言語表現モデルを導入する。
モデル内のレイヤは抽象化のレベルの増加に対応し、それらの表現が言語的により情報化されていることが分かりました。
- 参考スコア(独自算出の注目度): 13.330819521142065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned representations at the level of characters, sub-words, words and
sentences, have each contributed to advances in understanding different NLP
tasks and linguistic phenomena. However, learning textual embeddings is costly
as they are tokenization specific and require different models to be trained
for each level of abstraction. We introduce a novel language representation
model which can learn to compress to different levels of abstraction at
different layers of the same model. We apply Nonparametric Variational
Information Bottleneck (NVIB) to stacked Transformer self-attention layers in
the encoder, which encourages an information-theoretic compression of the
representations through the model. We find that the layers within the model
correspond to increasing levels of abstraction and that their representations
are more linguistically informed. Finally, we show that NVIB compression
results in a model which is more robust to adversarial perturbations.
- Abstract(参考訳): 文字、サブワード、単語、文のレベルでの学習された表現は、それぞれ異なるNLPタスクや言語現象を理解する進歩に貢献した。
しかし、テキスト埋め込みの学習はトークン化に特化しており、抽象化のレベルごとに異なるモデルをトレーニングする必要があるため、コストがかかる。
同じモデルの異なる層で異なる抽象レベルに圧縮する方法を学ぶことができる新しい言語表現モデルを導入する。
エンコーダ内のトランスフォーマー自己アテンション層にNVIB(Nonparametric Variational Information Bottleneck)を適用し,モデルによる表現の情報理論的圧縮を促進する。
モデル内のレイヤは抽象化のレベルの増加に対応し、それらの表現が言語的により理解される。
最後に、NVIB圧縮により、対向摂動に対してより堅牢なモデルが得られることを示す。
関連論文リスト
- Building, Reusing, and Generalizing Abstract Representations from Concrete Sequences [51.965994405124455]
人間は異なるシーケンスで抽象パターンを学習し、無関係な詳細をフィルタリングする。
多くのシーケンス学習モデルには抽象化能力がないため、メモリの非効率性や転送の低さにつながる。
非パラメトリック階層型変数学習モデル(HVM)を導入し、シーケンスからチャンクを学習し、文脈的に類似したチャンクを変数として抽象化する。
論文 参考訳(メタデータ) (2024-10-27T18:13:07Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - The Grammar-Learning Trajectories of Neural Language Models [42.32479280480742]
ニューラルネットワークモデルは,データ上での終末性能が異なるにもかかわらず,同じ順序で言語現象を取得することを示す。
以上の結果から,NLMは一貫した発達段階を示すことが示唆された。
論文 参考訳(メタデータ) (2021-09-13T16:17:23Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。