論文の概要: Making Language Model a Hierarchical Classifier and Generator
- arxiv url: http://arxiv.org/abs/2507.12930v1
- Date: Thu, 17 Jul 2025 09:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.425045
- Title: Making Language Model a Hierarchical Classifier and Generator
- Title(参考訳): 階層型分類器と生成器としての言語モデルの構築
- Authors: Yihong Wang, Zhonglin Jiang, Ningyuan Xi, Yue Zhao, Qingqing Gu, Xiyuan Chen, Hao Wu, Sheng Xu, Hange Zhou, Yong Chen, Luo Ji,
- Abstract要約: 人間の階層的思考能力によって動機づけられた階層的デコーダアーキテクチャは,テキストの復号化を同時に行うことができる。
本研究は、スクラッチから事前学習した一般化階層的推論器の可能性を示している。
- 参考スコア(独自算出の注目度): 11.340371159519451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoder-only language models, such as GPT and LLaMA, generally decode on the last layer. Motivated by human's hierarchical thinking capability, we propose that a hierarchical decoder architecture could be built with different layers decoding texts simultaneously. Due to limited time and computationally resources, we choose to adapt a pretrained language model into this form of hierarchical decoder. Language heads of the last layer are copied to different selected intermediate layers, and fine-tuned with different task inputs. By thorough experiments, we validate that these selective intermediate layers could be adapted to speak meaningful and reasonable contents, and this paradigm of hierarchical decoder can obtain state-of-the-art performances on multiple tasks such as hierarchical text classification, classification-guided generation, and hierarchical text generation. This study suggests the possibility of a generalized hierarchical reasoner, pretraining from scratch.
- Abstract(参考訳): GPTやLLaMAのようなデコーダのみの言語モデルは、一般的に最終層でデコードされる。
人間の階層的思考能力によって動機づけられた階層的デコーダアーキテクチャは,テキストの復号化を同時に行うことができる。
時間と計算資源が限られているため、事前訓練された言語モデルをこのような階層型デコーダに適応させることを選択します。
最後のレイヤの言語ヘッドは、選択された中間層にコピーされ、異なるタスク入力で微調整される。
徹底的な実験により、これらの選択中間層が意味のある、合理的な内容に適応可能であることを検証するとともに、階層型デコーダのパラダイムは、階層型テキスト分類、分類誘導生成、階層型テキスト生成など、複数のタスクにおける最先端のパフォーマンスを得ることができる。
本研究は、スクラッチから事前学習した一般化階層的推論器の可能性を示している。
関連論文リスト
- LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model [47.617093812158366]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Implant Global and Local Hierarchy Information to Sequence based Code
Representation Models [25.776540440893257]
完全な階層構造がコードシーケンスのトークンに与える影響を分析し、階層埋め込みと呼ばれるコードトークンの特性として、この影響を抽象化する。
ソースコードの完全な階層化をトランスフォーマーモデルに組み込むための,単純かつ効果的なシーケンスモデルである階層変換器(HiT)を提案する。
論文 参考訳(メタデータ) (2023-03-14T12:01:39Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Incorporating Hierarchy into Text Encoder: a Contrastive Learning
Approach for Hierarchical Text Classification [23.719121637849806]
テキストエンコーダにラベル階層を埋め込むための階層型コントラスト学習(HGCLR)を提案する。
トレーニング中、HGCLRはラベル階層のガイダンスの下で入力テキストの正のサンプルを構築する。
トレーニング後、HGCLR拡張テキストエンコーダは冗長な階層を不要にすることができる。
論文 参考訳(メタデータ) (2022-03-08T03:21:45Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Hierarchical Variational Memory for Few-shot Learning Across Domains [120.87679627651153]
本稿では,プロトタイプの各レベルが階層メモリから対応する情報を取得する階層型プロトタイプモデルを提案する。
このモデルには、ドメインシフトの状況が要求される場合、異なるセマンティックレベルの機能を柔軟に依存する能力が備わっている。
モデルにおける各コンポーネントの有効性を示すために、徹底的なアブレーション研究を行っている。
論文 参考訳(メタデータ) (2021-12-15T15:01:29Z) - R2D2: Recursive Transformer based on Differentiable Tree for
Interpretable Hierarchical Language Modeling [36.61173494449218]
本稿では, 構成過程をエミュレートするために, 微分可能なCKYスタイルのバイナリツリーに基づくモデルを提案する。
我々は、このアーキテクチャに対して双方向言語モデル事前学習の目的を拡張し、左右の抽象ノードを与えられた各単語を予測しようと試みる。
また,本手法を大規模化するために,合成ステップの線形数だけを符号化する効率的な伐採木誘導アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-07-02T11:00:46Z) - An End-to-End Document-Level Neural Discourse Parser Exploiting
Multi-Granularity Representations [24.986030179701405]
構文とセマンティクスにまたがる複数のレベルの粒度から派生した堅牢な表現を利用します。
このような表現をエンドツーエンドのエンコーダデコーダニューラルアーキテクチャに組み込んで、よりリソース豊富な対話処理を行います。
論文 参考訳(メタデータ) (2020-12-21T08:01:04Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。