論文の概要: Banyan: Improved Representation Learning with Explicit Structure
- arxiv url: http://arxiv.org/abs/2407.17771v1
- Date: Thu, 25 Jul 2024 04:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:17:52.206916
- Title: Banyan: Improved Representation Learning with Explicit Structure
- Title(参考訳): Banyan: 明示的な構造による表現学習の改善
- Authors: Mattia Opper, N. Siddharth,
- Abstract要約: 本稿では,データ上の明示的構造を導くことによって意味表現を学習するための改良されたモデルであるBanyanを提案する。
以前のアプローチとは対照的に、バンヤンは複数の構成構造をグローバルな文脈を明示的に取り入れた共有構造に分解することで学習する。
バンヤンはより優れた表現を学び、対照的な学習で刺激的な偽陰性を避け、メモリ効率を劇的に改善する。
- 参考スコア(独自算出の注目度): 4.4044968357361745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Banyan, an improved model to learn semantic representations by inducing explicit structure over data. In contrast to prior approaches using structure spanning single sentences, Banyan learns by resolving multiple constituent structures into a shared one explicitly incorporating global context. Combined with an improved message-passing scheme inspired by Griffin, Banyan learns significantly better representations, avoids spurious false negatives with contrastive learning, and drastically improves memory efficiency in such explicit-structured models. Using the Self-StrAE framework, we show that Banyan (a) outperforms baselines using sentential structure across various settings (b) matches or outperforms unstructured baselines like GloVe (+augmentations) and a RoBERTa medium (+simcse) pre-trained on 100M tokens, despite having just a handful of (non-embedding) parameters, and (c) also learns effective representations across several low resource (Asian and African) languages as measured on SemRel tasks.
- Abstract(参考訳): 本稿では,データ上の明示的構造を導くことによって意味表現を学習するための改良されたモデルであるBanyanを提案する。
単一文にまたがる構造を用いた従来のアプローチとは対照的に、バンヤンは複数の構成構造をグローバルな文脈を明示的に取り入れた共有構造に分解することで学習する。
Griffinにインスパイアされた改良されたメッセージパッシングスキームと組み合わせて、Banyanは表現を著しく改善し、対照的な学習を伴う刺激的な偽陰性を避け、そのような明示的な構造化モデルにおけるメモリ効率を大幅に改善する。
私たちはSelf-StrAEフレームワークを使って、Banyanが
(a)様々な設定にまたがる感性構造を用いてベースラインを上回る
(b)GloVe(+augmentations)やRoBERTa(+simcse)といった非構造化ベースラインが1億のトークンで事前トレーニングされているのに対して、わずかな(非埋め込み)パラメータしか持たないにもかかわらず、マッチまたはパフォーマンスが向上する。
(c)SemRelタスクで測定されたいくつかの低リソース(アジアとアフリカ)言語での効果的な表現も学習する。
関連論文リスト
- GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - A Hierarchical Transformer for Unsupervised Parsing [0.0]
階層的な表現を学習できるようにすることで、トランスモデルを拡張します。
言語モデリングの新しいモデルをトレーニングし、教師なし構文解析のタスクに適用する。
我々は、約50%のF1スコアで、WSJ10データセットの無償サブセットに対して妥当な結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:07:22Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。