論文の概要: Language Models as Hierarchy Encoders
- arxiv url: http://arxiv.org/abs/2401.11374v1
- Date: Sun, 21 Jan 2024 02:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:42:35.041644
- Title: Language Models as Hierarchy Encoders
- Title(参考訳): 階層エンコーダとしての言語モデル
- Authors: Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks
- Abstract要約: 階層変換器エンコーダ (HiTs) として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
我々は,Hitsを事前学習および微調整のLMに対して評価し,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達に焦点をあてた。
- 参考スコア(独自算出の注目度): 24.071698413762388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting hierarchical structures latent in language is a key limitation
of current language models (LMs). While previous research has implicitly
leveraged these hierarchies to enhance LMs, approaches for their explicit
encoding are yet to be explored. To address this, we introduce a novel approach
to re-train transformer encoder-based LMs as Hierarchy Transformer encoders
(HiTs), harnessing the expansive nature of hyperbolic space. Our method
situates the output embedding space of pre-trained LMs within a Poincar\'e ball
with a curvature that adapts to the embedding dimension, followed by
re-training on hyperbolic cluster and centripetal losses. These losses are
designed to effectively cluster related entities (input as texts) and organise
them hierarchically. We evaluate HiTs against pre-trained and fine-tuned LMs,
focusing on their capabilities in simulating transitive inference, predicting
subsumptions, and transferring knowledge across hierarchies. The results
demonstrate that HiTs consistently outperform both pre-trained and fine-tuned
LMs in these tasks, underscoring the effectiveness and transferability of our
re-trained hierarchy encoders.
- Abstract(参考訳): 言語で潜在する階層構造を解釈することは、現在の言語モデル(LM)の重要な制限である。
これまでの研究では、これらの階層を暗黙的に活用してlmsを強化するが、明示的なエンコーディングのアプローチはまだ検討されていない。
そこで本研究では, 階層変換エンコーダ (hits) としてトランスフォーマエンコーダをベースとするlmsを再訓練する新しい手法を提案する。
本手法では,poincar\'eボール内の予め訓練されたlmsの出力埋め込み空間を,埋め込み次元に適合する曲率で配置し,さらに双曲型クラスターと遠心損失に対して再訓練する。
これらの損失は、関連エンティティ(テキストとして入力される)を効果的にクラスタリングし、階層的にそれらを編成するように設計されている。
我々は,Hitsを事前学習および微調整のLMに対して評価し,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達に焦点をあてた。
その結果、Hitsはこれらのタスクにおいて、事前学習と微調整の両方のLMより一貫して優れており、再学習された階層エンコーダの有効性と転送性を示している。
関連論文リスト
- Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Semi-supervised source localization with deep generative modeling [27.344649091365067]
可変オートエンコーダ(VAE)を用いた深部生成モデルに基づく半教師付きローカライゼーション手法を提案する。
VAE-SSLはラベル制限シナリオでSRP-PHATとCNNの両方より優れている。
論文 参考訳(メタデータ) (2020-05-27T04:59:52Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。