Fugu-MT 論文翻訳(概要): A Distributional Approach to Controlled Text Generation

論文の概要: A Distributional Approach to Controlled Text Generation

arxiv url: http://arxiv.org/abs/2012.11635v1
Date: Mon, 21 Dec 2020 19:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-27 09:04:19.925721
Title: A Distributional Approach to Controlled Text Generation
Title（参考訳）: 制御されたテキスト生成への分布的アプローチ
Authors: Muhammad Khalifa, Hady Elsahar, Marc Dymetman
Abstract要約: 予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
参考スコア（独自算出の注目度）: 3.279201607581627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a Distributional Approach to address Controlled Text Generation from pre-trained Language Models (LMs). This view permits to define, in a single formal framework, "pointwise" and "distributional" constraints over the target LM -- to our knowledge, this is the first approach with such generality -- while minimizing KL divergence with the initial LM distribution. The optimal target distribution is then uniquely determined as an explicit EBM (Energy-Based Model) representation. From that optimal representation we then train the target controlled autoregressive LM through an adaptive distributional variant of Policy Gradient. We conduct a first set of experiments over pointwise constraints showing the advantages of our approach over a set of baselines, in terms of obtaining a controlled LM balancing constraint satisfaction with divergence from the initial LM (GPT-2). We then perform experiments over distributional constraints, a unique feature of our approach, demonstrating its potential as a remedy to the problem of Bias in Language Models. Through an ablation study we show the effectiveness of our adaptive technique for obtaining faster convergence.
Abstract（参考訳）: 本稿では,事前学習された言語モデル(LM)から制御されたテキスト生成に対処する分布的アプローチを提案する。この見解は、単一の形式的フレームワークにおいて、ターゲット LM 上の「点的」かつ「分布的」な制約を定義することを可能にします -- 我々の知識によれば、これはそのような一般化を持つ最初のアプローチであり、一方、初期 LM 分布との KL の発散を最小化します。最適目標分布は明示的なEMM(Energy-Based Model)表現として一意に決定される。その最適表現から、ターゲット制御された自己回帰的LMをポリシーグラディエントの適応分布変種を用いて訓練する。本研究は,最初のLM(GPT-2)から逸脱した制約満足度を制御したLMを得るという観点から,一連のベースラインに対するアプローチの利点を示すポイントワイド制約に関する最初の実験を行う。次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。アブレーション研究を通じて,より高速な収束を得るための適応手法の有効性を示す。

関連論文リスト

Policy Gradient for LQR with Domain Randomization [25.387541996071093]
ドメインランダム化(DR)は、シミュレーション環境の分布に基づいて、コントローラをトレーニングすることで、sim-to-real転送を可能にする。ドメインランダム化線形二次規則(LQR)のためのポリシー勾配法(PG法)の第1収束解析を提供する。我々は,サンプル平均値と集団レベルの目標値の差を小さくすることに伴う試料複雑度を定量化する。
論文参考訳（メタデータ） (2025-03-31T17:51:00Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。まず、確率分布に対する一般正規化損失最小化として問題を定式化する。本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文参考訳（メタデータ） (2025-02-05T07:35:15Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Distributional Preference Alignment of LLMs via Optimal Transport [36.95053112313244]
最適輸送(AOT)によるアライメント(Alignment)と呼ばれるLLMの分布選好アライメント手法を提案する。 AOTは、正のサンプルの報酬分布を負のサンプルの分布の第1次において支配的に支配することにより、LLMを未ペアの選好データに整合させる。 AOTは,Open LLM BenchmarksとAlpacaEvalで評価すると,7Bモデルの最先端モデルにつながることを示す。
論文参考訳（メタデータ） (2024-06-09T18:41:05Z)
TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。対象モデルの推定誤差に対して、漸近的境界が提供される。提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文参考訳（メタデータ） (2024-04-01T14:58:16Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文参考訳（メタデータ） (2023-01-30T18:29:35Z)
Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文参考訳（メタデータ） (2022-12-05T20:35:36Z)
Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文参考訳（メタデータ） (2022-08-18T06:42:49Z)
Cooperative Distribution Alignment via JSD Upper Bound [7.071749623370137]
教師なし分布アライメントは、2つ以上のソース分布を共有整列分布にマッピングする変換を推定する。このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くの応用がある。我々は,従来のフローベースアプローチを,単一の非逆数フレームワークで統一し,一般化することを提案する。
論文参考訳（メタデータ） (2022-07-05T20:09:03Z)
InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文参考訳（メタデータ） (2021-06-25T16:34:05Z)
Learning Invariant Representations and Risks for Semi-supervised Domain Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文参考訳（メタデータ） (2020-10-09T15:42:35Z)
An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文参考訳（メタデータ） (2020-05-01T23:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。