論文の概要: Language Models as Hierarchy Encoders
- arxiv url: http://arxiv.org/abs/2401.11374v2
- Date: Sat, 28 Sep 2024 18:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:58.951397
- Title: Language Models as Hierarchy Encoders
- Title(参考訳): 階層エンコーダとしての言語モデル
- Authors: Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks,
- Abstract要約: 階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
- 参考スコア(独自算出の注目度): 22.03504018330068
- License:
- Abstract: Interpreting hierarchical structures latent in language is a key limitation of current language models (LMs). While previous research has implicitly leveraged these hierarchies to enhance LMs, approaches for their explicit encoding are yet to be explored. To address this, we introduce a novel approach to re-train transformer encoder-based LMs as Hierarchy Transformer encoders (HiTs), harnessing the expansive nature of hyperbolic space. Our method situates the output embedding space of pre-trained LMs within a Poincar\'e ball with a curvature that adapts to the embedding dimension, followed by training on hyperbolic clustering and centripetal losses. These losses are designed to effectively cluster related entities (input as texts) and organise them hierarchically. We evaluate HiTs against pre-trained LMs, standard fine-tuned LMs, and several hyperbolic embedding baselines, focusing on their capabilities in simulating transitive inference, predicting subsumptions, and transferring knowledge across hierarchies. The results demonstrate that HiTs consistently outperform all baselines in these tasks, underscoring the effectiveness and transferability of our re-trained hierarchy encoders.
- Abstract(参考訳): 言語で潜在する階層構造を解釈することは、現在の言語モデル(LM)の重要な制限である。
これまでの研究では、これらの階層をLMの強化のために暗黙的に活用してきたが、その明示的なエンコーディングのアプローチはまだ検討されていない。
そこで本稿では,Herarchy Transformer Encoder (HiTs) として再学習型トランスフォーマーエンコーダ(LM)を提案する。
本手法は, 埋込次元に適応する曲率を持つポインカーボール内に予め学習したLMの出力埋め込み空間を定め, 双曲的クラスタリングと遠心的損失のトレーニングを行う。
これらの損失は、関連エンティティ(テキストとして入力される)を効果的にクラスタリングし、階層的にそれらを編成するように設計されている。
我々は,事前学習したLM,標準微調整LM,およびいくつかの双曲埋め込みベースラインに対して,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達といった能力に着目して,HiTを評価した。
その結果、HiTsはこれらのタスクのすべてのベースラインを一貫して上回り、再学習された階層エンコーダの有効性と転送性を強調した。
関連論文リスト
- Transformer Alignment in Large Language Models [3.007031501305338]
我々は,大規模言語モデル (LLM) を,高次元の離散的,結合的,非線形,動的システムによる埋め込みの変換とみなす。
この観点は、変換器ブロックを通過する個々のトークンの軌跡の追跡を動機付け、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
公開されている38個の LLM の解析において、残余ヤコビアンの上と右の特異ベクトルのアライメント、および線形性および層ワイド指数的成長の出現を明らかにする。
論文 参考訳(メタデータ) (2024-07-10T16:30:27Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
我々は,効率的な低ランク行列とブロック対角行列を組み合わせることで,FFNの線形層近似を3つの候補として検討する。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Semi-supervised source localization with deep generative modeling [27.344649091365067]
可変オートエンコーダ(VAE)を用いた深部生成モデルに基づく半教師付きローカライゼーション手法を提案する。
VAE-SSLはラベル制限シナリオでSRP-PHATとCNNの両方より優れている。
論文 参考訳(メタデータ) (2020-05-27T04:59:52Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。