論文の概要: Text Representation Distillation via Information Bottleneck Principle
- arxiv url: http://arxiv.org/abs/2311.05472v1
- Date: Thu, 9 Nov 2023 16:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:36:27.915941
- Title: Text Representation Distillation via Information Bottleneck Principle
- Title(参考訳): 情報ボトルネック原理によるテキスト表現蒸留
- Authors: Yanzhao Zhang, Dingkun Long, Zehan Li, Pengjun Xie
- Abstract要約: IBKDと呼ばれる新しい知識蒸留法を提案する。
本研究の目的は,教師モデルと学生モデルの最終表現間の相互情報を最大化しつつ,学生モデルの表現と入力データとの相互情報を同時に低減することにある。
テキスト表現の2つの主要なダウンストリーム応用に関する実証的研究により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 22.63996326177594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained language models (PLMs) have recently shown great success in text
representation field. However, the high computational cost and high-dimensional
representation of PLMs pose significant challenges for practical applications.
To make models more accessible, an effective method is to distill large models
into smaller representation models. In order to relieve the issue of
performance degradation after distillation, we propose a novel Knowledge
Distillation method called IBKD. This approach is motivated by the Information
Bottleneck principle and aims to maximize the mutual information between the
final representation of the teacher and student model, while simultaneously
reducing the mutual information between the student model's representation and
the input data. This enables the student model to preserve important learned
information while avoiding unnecessary information, thus reducing the risk of
over-fitting. Empirical studies on two main downstream applications of text
representation (Semantic Textual Similarity and Dense Retrieval tasks)
demonstrate the effectiveness of our proposed approach.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、最近テキスト表現分野で大きな成功を収めている。
しかし、計算コストが高く、plmの高次元表現は実用上重要な課題となる。
モデルをより使いやすくするために、大きなモデルをより小さな表現モデルに蒸留する方法が効果的である。
蒸留後の性能劣化の問題を解消するために, IBKDと呼ばれる新しい知識蒸留法を提案する。
この手法はインフォメーション・ボトルネックの原則に動機付けられ,教師と学生モデルの最終表現間の相互情報を最大化しつつ,学生モデルと入力データとの相互情報を同時に低減することを目的としている。
これにより、学生モデルが不要な情報を避けながら重要な学習情報を保存でき、過剰フィッティングのリスクを低減できる。
テキスト表現の2つの主な下流への応用に関する実証的研究(semantic textual similarity and dense retrieval tasks)は,提案手法の有効性を示している。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Factual Dialogue Summarization via Learning from Large Language Models [35.63037083806503]
大規模言語モデル(LLM)に基づく自動テキスト要約モデルは、より現実的に一貫した要約を生成する。
ゼロショット学習を用いて、LLMから記号的知識を抽出し、事実整合性(正)および矛盾性(負)の要約を生成する。
各種自動評価指標で確認したように,コヒーレンス,フラレンシ,関連性を保ちながら,より優れた事実整合性を実現する。
論文 参考訳(メタデータ) (2024-06-20T20:03:37Z) - Representation Learning with Conditional Information Flow Maximization [29.36409607847339]
本稿では,条件情報フローと呼ばれる情報理論表現学習フレームワークを提案する。
学習された表現は、優れた特徴均一性と十分な予測能力を有する。
実験により、学習された表現はより十分で、堅牢で、伝達可能であることが示された。
論文 参考訳(メタデータ) (2024-06-08T16:19:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability [43.984177729641615]
本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T17:05:26Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - MOOCRep: A Unified Pre-trained Embedding of MOOC Entities [4.0963355240233446]
我々はMOOCの構造から豊富なラベルのないデータを用いてMOOCエンティティの事前訓練された表現を学習することを提案する。
実験の結果,MOOCRepの埋め込みは,教育コミュニティにとって重要な2つの課題において,最先端の表現学習方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-12T00:11:25Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。