Fugu-MT 論文翻訳(概要): Self-conditioning pre-trained language models

論文の概要: Self-conditioning pre-trained language models

arxiv url: http://arxiv.org/abs/2110.02802v1
Date: Thu, 30 Sep 2021 11:18:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-10 11:40:46.066119
Title: Self-conditioning pre-trained language models
Title（参考訳）: 自己コンディショニング事前学習言語モデル
Authors: Xavier Suau, Luca Zappella, Nicholas Apostoloff
Abstract要約: 事前学習型トランスフォーマーベース言語モデル(TLM)におけるエキスパートユニットの存在について検討する。既成の既成のTLMを自身の知識で条件付けして,与えられた概念を含むテキストを生成することができることを示す。本研究では,各文脈において,モデルの難易度を維持しながらジェンダーパリティが達成されることを示す。
参考スコア（独自算出の注目度）: 0.5156484100374059
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the presence of expert units in pre-trained Transformer-based Language Models (TLMs), and how they can be used to condition text generation to contain specific concepts. We define expert units to be neurons that are able to detect a concept in the input with a given average precision. A concept is represented with a set of sentences that either do or do not contain the concept. Leveraging the OneSec dataset, we compile a dataset of 1344 concepts that allows diverse expert units in TLMs to be discovered. Our experiments demonstrate that off-the-shelf pre-trained TLMs can be conditioned on their own knowledge (self-conditioning) to generate text that contains a given concept. To this end, we intervene on the top expert units by fixing their output during inference, and we show experimentally that this is an effective method to condition TLMs. Our method does not require fine-tuning the model or using additional parameters, which allows conditioning large TLM with minimal compute resources. Furthermore, by intervening on a small number of experts in GPT2, we can achieve parity with respect to two concepts at generation time. The specific case of gender bias is explored, and we show that, for given contexts, gender parity is achieved while maintaining the model's perplexity.
Abstract（参考訳）: 事前学習されたトランスフォーマティブ言語モデル(tlms)におけるエキスパートユニットの存在と、特定の概念を含むテキスト生成の条件付けにどのように使用できるかを検討する。我々は、入力中の概念を所定の平均精度で検出できるニューロンとして、専門家ユニットを定義する。概念は、概念を含まないまたは含まない一連の文で表現される。 OneSecデータセットを利用すると、1344のコンセプトのデータセットをコンパイルして、TLMのさまざまな専門家ユニットを発見できます。実験では,既成の既成のTLMを自身の知識(セルフコンディショニング)で条件付けして,与えられた概念を含むテキストを生成することができることを示した。この目的のために,提案手法はtlmを条件づける効果的な手法であることを実験的に示す。提案手法では,モデルの微調整やパラメータの追加は必要とせず,計算資源の最小化による大規模TLMの条件付けが可能となる。さらに、GPT2の少数の専門家に介入することで、世代ごとに2つの概念を同等にすることができる。ジェンダーバイアスの具体例を考察し,与えられた文脈において,モデルのパープレキシティを維持しながら性同一性が達成されることを示す。

関連論文リスト

SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文参考訳（メタデータ） (2025-02-19T12:31:58Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Multi-Level Explanations for Generative Language Models [45.82956216020136]
生成言語モデル(MExGen)のためのマルチレベル記述法を提案する。 MExGenは、スコアをコンテキストの一部に割り当て、モデルの出力への影響を定量化する。我々は,要約と質問応答のための摂動に基づく帰属手法の,自動的および人的両方の体系的評価を行う。
論文参考訳（メタデータ） (2024-03-21T15:06:14Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文参考訳（メタデータ） (2023-10-16T08:42:39Z)
On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文参考訳（メタデータ） (2023-07-04T02:47:42Z)
Generating texts under constraint through discriminator-guided MCTS [1.3750624267664153]
判別器によって誘導される木探索プロセスとして制約付き世代を定式化する。差別化器を用いて、LMを微調整するのではなく、この世代を導くことで、より微細かつ動的に制約を適用することができる。提案手法は,言語モデルを調整することなく,制約付き生成の結果が得られることを示す。
論文参考訳（メタデータ） (2021-09-28T09:29:15Z)
AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing [0.0]
トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学習する。これらのモデルは、下流モデルのスクラッチからのトレーニングを避けるために、下流タスクに適切なバックグラウンド知識を提供する。
論文参考訳（メタデータ） (2021-08-12T05:32:18Z)
Pre-training Text-to-Text Transformers for Concept-centric Common Sense [48.11844351407072]
本稿では,概念中心のコモンセンス知識を用いた事前学習型言語モデルの拡張を目的とした概念認識型言語モデル(CALM)を提案する。我々は,CALMが外部知識グラフに頼ることなく,事前学習したテキスト・テキスト・トランスフォーマーのパラメータに,より常識的な知識を詰め込むことができることを示す。
論文参考訳（メタデータ） (2020-10-24T07:00:37Z)
Finding Experts in Transformer Models [2.105564340986074]
本研究では、事前訓練されたトランスフォーマーモデル(TM)におけるエキスパートユニットの存在と、それらがモデルの性能に与える影響について検討する。 1641のコンセプトのデータセットをコンパイルし、様々な専門家ユニットをTMで発見できるようにします。そこで,本研究では,事前学習型言語モデルを用いて,トップエキスパートに積極性を持たせることによって,与えられた概念でテキストを生成する方法について述べる。
論文参考訳（メタデータ） (2020-05-15T17:07:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。