論文の概要: Self-conditioning pre-trained language models
- arxiv url: http://arxiv.org/abs/2110.02802v4
- Date: Wed, 14 Jun 2023 10:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:31:26.604824
- Title: Self-conditioning pre-trained language models
- Title(参考訳): 自己コンディショニング事前学習言語モデル
- Authors: Xavier Suau, Luca Zappella, Nicholas Apostoloff
- Abstract要約: 本稿では,TLMに自然に存在する専門家ユニットを利用する生成機構について述べる。
驚くほど少量のユニットのアクティベートがテキスト生成を操るのに十分であることがわかった。
提案手法は, TLMの出力に存在する性別バイアスの補正に有効であることを示す。
- 参考スコア(独自算出の注目度): 2.105564340986074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we aim to investigate the mechanisms that guide text generation
with pre-trained Transformer-based Language Models (TLMs). Grounded on the
Product of Experts formulation by Hinton (1999), we describe a generative
mechanism that exploits expert units which naturally exist in TLMs. Such units
are responsible for detecting concepts in the input and conditioning text
generation on such concepts. We describe how to identify expert units and how
to activate them during inference in order to induce any desired concept in the
generated output. We find that the activation of a surprisingly small amount of
units is sufficient to steer text generation (as little as 3 units in a model
with 345M parameters). While the objective of this work is to learn more about
how TLMs work, we show that our method is effective for conditioning without
fine-tuning or using extra parameters, even on fine-grained homograph concepts.
Additionally, we show that our method can be used to correct gender bias
present in the output of TLMs and achieves gender parity for all evaluated
contexts. We compare our method with FUDGE and PPLM-BoW, and show that our
approach is able to achieve gender parity at a lower perplexity. The proposed
method is accessible to a wide audience thanks to its simplicity and minimal
compute needs. The findings in this paper are a step forward in understanding
the generative mechanisms of TLMs.
- Abstract(参考訳): 本稿では,事前学習したTransformer-based Language Models (TLM) を用いてテキスト生成を誘導するメカニズムについて検討する。
Hinton (1999) によるProduct of Expertsの定式化に基づいて、TLM に自然に存在するエキスパートユニットを利用する生成機構を記述する。
そのような単位は、そのような概念の入力および条件付きテキスト生成における概念を検出する責任がある。
生成した出力に望まれる概念を誘導するために、専門家ユニットの識別方法と推論中にそれらを活性化する方法を述べる。
驚くほど少量のユニットのアクティベーションは、テキスト生成(345mのパラメータを持つモデルでは3ユニット程度)を制御するのに十分であることがわかった。
本研究の目的は, TLMの動作についてより深く知ることであるが, 細粒度ホモグラフの概念であっても, 微調整や余分なパラメータを使わずに条件付けに有効であることを示す。
さらに,本手法は, TLMの出力に存在する性別バイアスを補正し, 評価された文脈ごとの性別パリティを達成できることを示す。
提案手法をFUDGEとPPLM-BoWと比較し,本手法がより低いパープレキシティでジェンダーパリティを達成可能であることを示す。
提案手法は,単純さと計算能力の最小化により,幅広いオーディエンスに利用可能である。
本研究の成果は, TLMの生成機構を理解するための一歩である。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Generating texts under constraint through discriminator-guided MCTS [1.3750624267664153]
判別器によって誘導される木探索プロセスとして制約付き世代を定式化する。
差別化器を用いて、LMを微調整するのではなく、この世代を導くことで、より微細かつ動的に制約を適用することができる。
提案手法は,言語モデルを調整することなく,制約付き生成の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-28T09:29:15Z) - AMMUS : A Survey of Transformer-based Pretrained Models in Natural
Language Processing [0.0]
トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。
変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学習する。
これらのモデルは、下流モデルのスクラッチからのトレーニングを避けるために、下流タスクに適切なバックグラウンド知識を提供する。
論文 参考訳(メタデータ) (2021-08-12T05:32:18Z) - Pre-training Text-to-Text Transformers for Concept-centric Common Sense [48.11844351407072]
本稿では,概念中心のコモンセンス知識を用いた事前学習型言語モデルの拡張を目的とした概念認識型言語モデル(CALM)を提案する。
我々は,CALMが外部知識グラフに頼ることなく,事前学習したテキスト・テキスト・トランスフォーマーのパラメータに,より常識的な知識を詰め込むことができることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:00:37Z) - Finding Experts in Transformer Models [2.105564340986074]
本研究では、事前訓練されたトランスフォーマーモデル(TM)におけるエキスパートユニットの存在と、それらがモデルの性能に与える影響について検討する。
1641のコンセプトのデータセットをコンパイルし、様々な専門家ユニットをTMで発見できるようにします。
そこで,本研究では,事前学習型言語モデルを用いて,トップエキスパートに積極性を持たせることによって,与えられた概念でテキストを生成する方法について述べる。
論文 参考訳(メタデータ) (2020-05-15T17:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。