論文の概要: Controlling the Focus of Pretrained Language Generation Models
- arxiv url: http://arxiv.org/abs/2203.01146v1
- Date: Wed, 2 Mar 2022 14:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:48:08.048524
- Title: Controlling the Focus of Pretrained Language Generation Models
- Title(参考訳): 事前学習した言語生成モデルの焦点制御
- Authors: Jiabao Ji, Yoon Kim, James Glass, Tianxing He
- Abstract要約: 本研究では,ユーザが注目するモデルに対して,コンテキストのスパンを"ハイライト"として選択し,関連する出力を生成するための制御機構を開発する。
この目的を達成するために、トレーニング可能な"フォーカスベクトル"で事前訓練されたモデルを拡張し、モデルの埋め込みに直接適用する。
実験の結果,訓練された焦点ベクトルは,ユーザの選択したハイライトに関連する出力を生成するためにモデルを操るのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 22.251710018744497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The finetuning of pretrained transformer-based language generation models are
typically conducted in an end-to-end manner, where the model learns to attend
to relevant parts of the input by itself. However, there does not exist a
mechanism to directly control the model's focus. This work aims to develop a
control mechanism by which a user can select spans of context as "highlights"
for the model to focus on, and generate relevant output. To achieve this goal,
we augment a pretrained model with trainable "focus vectors" that are directly
applied to the model's embeddings, while the model itself is kept fixed. These
vectors, trained on automatic annotations derived from attribution methods, act
as indicators for context importance. We test our approach on two core
generation tasks: dialogue response generation and abstractive summarization.
We also collect evaluation data where the highlight-generation pairs are
annotated by humans. Our experiments show that the trained focus vectors are
effective in steering the model to generate outputs that are relevant to
user-selected highlights.
- Abstract(参考訳): 事前訓練されたトランスフォーマーベースの言語生成モデルの微調整は、通常エンドツーエンドで行われ、モデルが入力の関連部分に自身で従うことを学習する。
しかし、モデルの焦点を直接制御するメカニズムは存在しない。
本研究は,ユーザがコンテキストのスパンを"ハイライト"として選択し,モデルが焦点を合わせ,関連するアウトプットを生成する制御機構を開発することを目的とする。
この目的を達成するために、モデル自体が固定されている間、モデルの埋め込みに直接適用されるトレーニング可能な「フォーカスベクトル」で事前訓練されたモデルを拡張する。
これらのベクトルは帰属法から派生した自動アノテーションに基づいて訓練され、文脈の重要性を示す指標として機能する。
提案手法は対話応答生成と抽象要約という2つのコア生成タスクでテストする。
また,ハイライトジェネレーションペアが人間によって注釈付けされる評価データも収集する。
実験の結果,訓練された焦点ベクトルは,ユーザの選択したハイライトに関連する出力を生成するためにモデルを操るのに有効であることがわかった。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。