論文の概要: Hidden Schema Networks
- arxiv url: http://arxiv.org/abs/2207.03777v1
- Date: Fri, 8 Jul 2022 09:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 12:13:15.763219
- Title: Hidden Schema Networks
- Title(参考訳): 隠れスキーマネットワーク
- Authors: Rams\'es J. S\'anchez, Lukas Conrads, Pascal Welke, Kostadin Cvejoski
and C\'esar Ojeda
- Abstract要約: テキストデータセットからシンボルのネットワークを検出するニューラルネットワークモデルを導入する。
変動型オートエンコーダフレームワークを用いて,文を記号列にエンコードする。
このモデルは,自然言語の異なる側面を符号化するスキーマネットワークを推論できることを示す。
- 参考スコア(独自算出の注目度): 3.4123736336071864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most modern language models infer representations that, albeit powerful, lack
both compositionality and semantic interpretability. Starting from the
assumption that a large proportion of semantic content is necessarily
relational, we introduce a neural language model that discovers networks of
symbols (schemata) from text datasets. Using a variational autoencoder (VAE)
framework, our model encodes sentences into sequences of symbols (composed
representation), which correspond to the nodes visited by biased random walkers
on a global latent graph. Sentences are then generated back, conditioned on the
selected symbol sequences. We first demonstrate that the model is able to
uncover ground-truth graphs from artificially generated datasets of random
token sequences. Next we leverage pretrained BERT and GPT-2 language models as
encoder and decoder, respectively, to train our model on language modelling
tasks. Qualitatively, our results show that the model is able to infer schema
networks encoding different aspects of natural language. Quantitatively, the
model achieves state-of-the-art scores on VAE language modeling benchmarks.
Source code to reproduce our experiments is available at
https://github.com/ramsesjsf/HiddenSchemaNetworks
- Abstract(参考訳): ほとんどの現代言語モデルは、構成性も意味的解釈性も欠如しているような表現を推論している。
意味コンテンツの多さは必然的に関係しているという仮定から始め、テキストデータセットから記号のネットワーク(スキーマ)を発見するニューラルネットワークモデルを導入する。
変動型オートエンコーダ(VAE)フレームワークを用いて,大域的潜在グラフ上のランダムウォーカーが訪れたノードに対応する記号列(複合表現)に文を符号化する。
文は後に生成され、選択されたシンボルシーケンスに条件付けされる。
まず,このモデルを用いて,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを実証した。
次に、事前訓練されたBERTとGPT-2言語モデルをエンコーダとデコーダとして利用し、言語モデリングタスクでモデルをトレーニングする。
定性的には、このモデルが自然言語の異なる側面を符号化するスキーマネットワークを推論できることを示す。
定量的に、このモデルはVAE言語モデリングベンチマークの最先端スコアを達成する。
実験を再現するソースコードはhttps://github.com/ramsesjsf/HiddenSchemaNetworksで公開されている。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。