論文の概要: Efficient Attribute Injection for Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2109.07953v1
- Date: Thu, 16 Sep 2021 13:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 20:15:55.364029
- Title: Efficient Attribute Injection for Pretrained Language Models
- Title(参考訳): 事前学習言語モデルに対する効率的な属性注入
- Authors: Reinald Kim Amplayo and Kang Min Yoo and Sang-Woo Lee
- Abstract要約: 事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 20.39972635495006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metadata attributes (e.g., user and product IDs from reviews) can be
incorporated as additional inputs to neural-based NLP models, by modifying the
architecture of the models, in order to improve their performance. Recent
models however rely on pretrained language models (PLMs), where previously used
techniques for attribute injection are either nontrivial or ineffective. In
this paper, we propose a lightweight and memory-efficient method to inject
attributes to PLMs. We extend adapters, i.e. tiny plug-in feed-forward modules,
to include attributes both independently of or jointly with the text. To limit
the increase of parameters especially when the attribute vocabulary is large,
we use low-rank approximations and hypercomplex multiplications, significantly
decreasing the total parameters. We also introduce training mechanisms to
handle domains in which attributes can be multi-labeled or sparse. Extensive
experiments and analyses on eight datasets from different domains show that our
method outperforms previous attribute injection methods and achieves
state-of-the-art performance on various datasets.
- Abstract(参考訳): メタデータ属性(レビューからのユーザIDや製品IDなど)は、パフォーマンスを改善するためにモデルのアーキテクチャを変更することで、ニューラルベースNLPモデルへの追加入力として組み込むことができる。
しかし、最近のモデルは事前学習された言語モデル(plm)に依存しており、属性注入のテクニックは非自明か非効率である。
本稿では,PLMに属性を注入する軽量でメモリ効率の良い手法を提案する。
アダプタ、すなわち小さなプラグインフィードフォワードモジュールを拡張して、テキストとは独立あるいは共同で属性を含むようにします。
属性語彙が大きい場合,特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用い,総パラメータを著しく減少させる。
また、属性をマルチラベルまたはスパースにすることができるドメインを扱うためのトレーニングメカニズムも導入する。
異なる領域の8つのデータセットに対する大規模な実験と分析により,提案手法は従来の属性注入法より優れ,各種データセット上での最先端性能を実現することが示された。
関連論文リスト
- CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.46562066023117]
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-08T08:36:12Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm [18.53048511206039]
本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前トレーニングされたCLIPモデルを使用して歩行者機能を抽出し、テキストプロンプトのガイダンスの下で、属性セットをクエリトークンに埋め込む。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながら、モデルが次の属性を思い出すのを防ぐ。
論文 参考訳(メタデータ) (2023-12-04T05:42:56Z) - Increasing Performance And Sample Efficiency With Model-agnostic
Interactive Feature Attributions [3.0655581300025996]
我々は,2つの一般的な説明手法(Occlusion と Shapley の値)に対して,モデルに依存しない実装を提供し,その複雑なモデルにおいて,完全に異なる属性を強制する。
提案手法は,修正された説明に基づいてトレーニングデータセットを増強することで,モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-28T15:23:28Z) - Meta-Learning the Difference: Preparing Large Language Models for
Efficient Adaptation [11.960178399478718]
大規模な事前訓練言語モデル(PLM)は、しばしば細調整やプロンプトによってドメインまたはタスク適応される。
その代わりに、一般と適応のPLMの違いを学習することで、データおよびパラメータ効率の適応のためのPLMを作成する。
論文 参考訳(メタデータ) (2022-07-07T18:00:22Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文 参考訳(メタデータ) (2022-04-29T04:16:04Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Model-agnostic and Scalable Counterfactual Explanations via
Reinforcement Learning [0.5729426778193398]
本稿では,最適化手順をエンドツーエンドの学習プロセスに変換する深層強化学習手法を提案する。
実世界のデータを用いた実験により,本手法はモデルに依存しず,モデル予測からのフィードバックのみに依存することがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:54:36Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。