Fugu-MT 論文翻訳(概要): Language Models as Hierarchy Encoders

論文の概要: Language Models as Hierarchy Encoders

arxiv url: http://arxiv.org/abs/2401.11374v3
Date: Wed, 09 Oct 2024 20:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.388871
Title: Language Models as Hierarchy Encoders
Title（参考訳）: 階層エンコーダとしての言語モデル
Authors: Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks,
Abstract要約: 階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
参考スコア（独自算出の注目度）: 22.03504018330068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interpreting hierarchical structures latent in language is a key limitation of current language models (LMs). While previous research has implicitly leveraged these hierarchies to enhance LMs, approaches for their explicit encoding are yet to be explored. To address this, we introduce a novel approach to re-train transformer encoder-based LMs as Hierarchy Transformer encoders (HiTs), harnessing the expansive nature of hyperbolic space. Our method situates the output embedding space of pre-trained LMs within a Poincar\'e ball with a curvature that adapts to the embedding dimension, followed by training on hyperbolic clustering and centripetal losses. These losses are designed to effectively cluster related entities (input as texts) and organise them hierarchically. We evaluate HiTs against pre-trained LMs, standard fine-tuned LMs, and several hyperbolic embedding baselines, focusing on their capabilities in simulating transitive inference, predicting subsumptions, and transferring knowledge across hierarchies. The results demonstrate that HiTs consistently outperform all baselines in these tasks, underscoring the effectiveness and transferability of our re-trained hierarchy encoders.
Abstract（参考訳）: 言語で潜在する階層構造を解釈することは、現在の言語モデル(LM)の重要な制限である。これまでの研究では、これらの階層をLMの強化のために暗黙的に活用してきたが、その明示的なエンコーディングのアプローチはまだ検討されていない。そこで本稿では,Herarchy Transformer Encoder (HiTs) として再学習型トランスフォーマーエンコーダ(LM)を提案する。本手法は, 埋込次元に適応する曲率を持つポインカーボール内に予め学習したLMの出力埋め込み空間を定め, 双曲的クラスタリングと遠心的損失のトレーニングを行う。これらの損失は、関連エンティティ(テキストとして入力される)を効果的にクラスタリングし、階層的にそれらを編成するように設計されている。我々は,事前学習したLM,標準微調整LM,およびいくつかの双曲埋め込みベースラインに対して,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達といった能力に着目して,HiTを評価した。その結果、HiTsはこれらのタスクのすべてのベースラインを一貫して上回り、再学習された階層エンコーダの有効性と転送性を強調した。

関連論文リスト

Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文参考訳（メタデータ） (2025-10-14T00:58:34Z)
Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文参考訳（メタデータ） (2025-07-30T14:49:30Z)
LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文参考訳（メタデータ） (2025-07-06T14:35:43Z)
Growing Through Experience: Scaling Episodic Grounding in Language Models [67.27024505353384]
言語モデル(LM)は、物理的な計画タスクに長けるために、堅牢なエピソジックグラウンドを必要とする。現在のエピソジックな基盤アプローチは、スケーラビリティと統合に苦労しています。本稿では,より小規模から大規模にエピソジックな動作を効果的に伝達する,スケーラブルな弱から強のエピソジックな学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-02T04:52:19Z)
CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。 CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。 CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文参考訳（メタデータ） (2025-05-01T08:27:14Z)
Penrose Tiled Low-Rank Compression and Section-Wise Q&A Fine-Tuning: A General Framework for Domain-Specific Large Language Model Adaptation [7.161207910629032]
大規模言語モデル(LLM)は、材料科学のような専門的な科学分野に対して大きな約束を持っている。本稿では,この課題に対処するために,構造化モデル圧縮と科学的微調整システムを組み合わせた2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-28T01:33:05Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models [20.107727903240065]
本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
論文参考訳（メタデータ） (2024-08-02T15:00:05Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Understanding Token-level Topological Structures in Transformer-based Time Series Forecasting [52.364260925700485]
Transformer-based method has achieved state-of-the-art performance in time series forecasting (TSF) 既存のトランスフォーマーが中間層全体を通してトークン間の固有位相構造を完全に活用しているかどうかは不明である。トークンレベルのトポロジを明示的にかつ適応的に保存するトランスフォーマーベースの新しいTSF手法であるトポロジ拡張法(TEM)を提案する。
論文参考訳（メタデータ） (2024-04-16T07:21:39Z)
Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文参考訳（メタデータ） (2023-04-24T07:35:38Z)
Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T07:27:29Z)
Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。本研究では,このアプローチをニューラルLMの文脈で再考する。
論文参考訳（メタデータ） (2022-03-21T01:16:44Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)
SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文参考訳（メタデータ） (2021-03-17T13:23:53Z)
Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文参考訳（メタデータ） (2020-02-19T08:17:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。