論文の概要: Partially Randomizing Transformer Weights for Dialogue Response
Diversity
- arxiv url: http://arxiv.org/abs/2311.10943v1
- Date: Sat, 18 Nov 2023 02:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:19:49.900442
- Title: Partially Randomizing Transformer Weights for Dialogue Response
Diversity
- Title(参考訳): 対話応答多様性のための部分ランダム化トランスフォーマーウェイト
- Authors: Jing Yang Lee, Kong Aik Lee, and Woon-Seng Gan
- Abstract要約: 低応答多様性は、生成的オープンドメイン対話において持続する。
我々は、サブライン部分的アンダーライン化トランスアンダーラインフォーマー(PaRaFormer)を提案する。
実験の結果,PaRaformerの性能は前述のアプローチに匹敵することがわかった。
- 参考スコア(独自算出の注目度): 27.83533924583182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in generative open-domain dialogue, the issue of low
response diversity persists. Prior works have addressed this issue via either
novel objective functions, alternative learning approaches such as variational
frameworks, or architectural extensions such as the Randomized Link (RL)
Transformer. However, these approaches typically entail either additional
difficulties during training/inference, or a significant increase in model size
and complexity. Hence, we propose the \underline{Pa}rtially
\underline{Ra}ndomized trans\underline{Former} (PaRaFormer), a simple extension
of the transformer which involves freezing the weights of selected layers after
random initialization. Experimental results reveal that the performance of the
PaRaformer is comparable to that of the aforementioned approaches, despite not
entailing any additional training difficulty or increase in model complexity.
- Abstract(参考訳): 生成的オープンドメイン対話の進展にもかかわらず、低応答多様性の問題が続いている。
以前の研究は、新しい目的関数、変分フレームワークのような代替学習アプローチ、あるいはランダムリンク(rl)トランスフォーマーのようなアーキテクチャ拡張を通じてこの問題に対処してきた。
しかしながら、これらのアプローチは通常、トレーニング/推論中に追加の困難を伴うか、あるいはモデルのサイズと複雑さが大幅に増加する。
したがって、ランダム初期化後に選択した層の重みを凍結するトランスフォーマーの簡単な拡張である \underline{Pa}rtially \underline{Ra}ndomized trans\underline{Former} (PaRaFormer) を提案する。
実験の結果、PaRaformerの性能は前述のアプローチと同等であるが、追加のトレーニングの困難さやモデルの複雑さの増加は伴わないことがわかった。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - Few-Shot Class Incremental Learning via Robust Transformer Approach [16.590193619691416]
Few-Shot Class-Incremental Learningは,データ不足の問題にモデルが直面しているクラス増分学習問題の拡張を提示する。
この問題は、最近のすべての研究が、準最適に実行される畳み込みニューラルネットワークの上に構築されているため、未解決の問題のままである。
本稿では,コンパクト畳み込み変換器を用いたロバスト変換器を提案する。
論文 参考訳(メタデータ) (2024-05-08T03:35:52Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - A Variational Inference Approach to Inverse Problems with Gamma
Hyperpriors [60.489902135153415]
本稿では,ガンマハイパープライヤを用いた階層的逆問題に対する変分反復交替方式を提案する。
提案した変分推論手法は正確な再構成を行い、意味のある不確実な定量化を提供し、実装が容易である。
論文 参考訳(メタデータ) (2021-11-26T06:33:29Z) - Complexity-based partitioning of CSFI problem instances with
Transformers [0.3867363075280544]
共役正規形式 (CNF) の合成式同型問題を異なる複雑性の群に分割する2段階のアプローチを提案する。
提案手法を擬似ランダムに生成したデータセット上で評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2021-06-28T08:48:12Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Towards Multimodal Response Generation with Exemplar Augmentation and
Curriculum Optimization [73.45742420178196]
本稿では,高度化とカリキュラム最適化を併用した,新しいマルチモーダル応答生成フレームワークを提案する。
我々のモデルは多様性と妥当性の点で強いベースラインに比べて大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-26T16:29:06Z) - Scalable Variational Gaussian Process Regression Networks [19.699020509495437]
GPRNのためのスケーラブルな変分推論アルゴリズムを提案する。
出力空間をテンソル化し、テンソル/マトリクス正規変分後部を導入し、後部相関を捉える。
実世界のいくつかの応用において,本手法の利点を実証する。
論文 参考訳(メタデータ) (2020-03-25T16:39:47Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。