論文の概要: Banyan: Improved Representation Learning with Explicit Structure
- arxiv url: http://arxiv.org/abs/2407.17771v1
- Date: Thu, 25 Jul 2024 04:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-26 15:17:52.206916
- Title: Banyan: Improved Representation Learning with Explicit Structure
- Title(参考訳): Banyan: 明示的な構造による表現学習の改善
- Authors: Mattia Opper, N. Siddharth,
- Abstract要約: 本稿では,データ上の明示的構造を導くことによって意味表現を学習するための改良されたモデルであるBanyanを提案する。
以前のアプローチとは対照的に、バンヤンは複数の構成構造をグローバルな文脈を明示的に取り入れた共有構造に分解することで学習する。
バンヤンはより優れた表現を学び、対照的な学習で刺激的な偽陰性を避け、メモリ効率を劇的に改善する。
- 参考スコア(独自算出の注目度): 4.4044968357361745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Banyan, an improved model to learn semantic representations by inducing explicit structure over data. In contrast to prior approaches using structure spanning single sentences, Banyan learns by resolving multiple constituent structures into a shared one explicitly incorporating global context. Combined with an improved message-passing scheme inspired by Griffin, Banyan learns significantly better representations, avoids spurious false negatives with contrastive learning, and drastically improves memory efficiency in such explicit-structured models. Using the Self-StrAE framework, we show that Banyan (a) outperforms baselines using sentential structure across various settings (b) matches or outperforms unstructured baselines like GloVe (+augmentations) and a RoBERTa medium (+simcse) pre-trained on 100M tokens, despite having just a handful of (non-embedding) parameters, and (c) also learns effective representations across several low resource (Asian and African) languages as measured on SemRel tasks.
- Abstract(参考訳): 本稿では,データ上の明示的構造を導くことによって意味表現を学習するための改良されたモデルであるBanyanを提案する。
単一文にまたがる構造を用いた従来のアプローチとは対照的に、バンヤンは複数の構成構造をグローバルな文脈を明示的に取り入れた共有構造に分解することで学習する。
Griffinにインスパイアされた改良されたメッセージパッシングスキームと組み合わせて、Banyanは表現を著しく改善し、対照的な学習を伴う刺激的な偽陰性を避け、そのような明示的な構造化モデルにおけるメモリ効率を大幅に改善する。
私たちはSelf-StrAEフレームワークを使って、Banyanが
(a)様々な設定にまたがる感性構造を用いてベースラインを上回る
(b)GloVe(+augmentations)やRoBERTa(+simcse)といった非構造化ベースラインが1億のトークンで事前トレーニングされているのに対して、わずかな(非埋め込み)パラメータしか持たないにもかかわらず、マッチまたはパフォーマンスが向上する。
(c)SemRelタスクで測定されたいくつかの低リソース(アジアとアフリカ)言語での効果的な表現も学習する。
関連論文リスト
- SparseJEPA: Sparse Representation Learning of Joint Embedding Predictive Architectures [0.46040036610482665]
JEPA(Joint Embedding Predictive Architectures)は、汎用的な表現を学ぶための強力なフレームワークとして登場した。
本稿では,スパース表現学習をJEPAフレームワークに統合し,学習表現の質を高める拡張であるSparseJEPAを提案する。
論文 参考訳(メタデータ) (2025-04-22T02:43:00Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - MoCoSA: Momentum Contrast for Knowledge Graph Completion with
Structure-Augmented Pre-trained Language Models [11.57782182864771]
構造強化事前学習言語モデル(MoCoSA)を用いた知識グラフ補完のためのMomentum Contrastを提案する。
また,WN18RRでは2.5%,OpenBG500では21%向上した。
論文 参考訳(メタデータ) (2023-08-16T08:09:10Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Enhancing Language Representation with Constructional Information for
Natural Language Understanding [5.945710973349298]
構成文法(CxG)を導入し,形式と意味のペアリングを強調した。
使用法に基づく構築文法を作業の基盤として採用する。
HyCxGフレームワークは3段階のソリューションを通じて言語表現を強化するために提案されている。
論文 参考訳(メタデータ) (2023-06-05T12:15:12Z) - StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。
本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。
次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文 参考訳(メタデータ) (2023-05-09T16:20:48Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Imposing Relation Structure in Language-Model Embeddings Using
Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。
結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-02T10:58:27Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - A Hierarchical Transformer for Unsupervised Parsing [0.0]
階層的な表現を学習できるようにすることで、トランスモデルを拡張します。
言語モデリングの新しいモデルをトレーニングし、教師なし構文解析のタスクに適用する。
我々は、約50%のF1スコアで、WSJ10データセットの無償サブセットに対して妥当な結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:07:22Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。