論文の概要: The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers
- arxiv url: http://arxiv.org/abs/2305.01628v1
- Date: Tue, 2 May 2023 17:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:31:36.651612
- Title: The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers
- Title(参考訳): 悪いアドバイスのメリット: モデル層間での自動コントラストデコーディング
- Authors: Ariel Gera, Roni Friedman, Ofir Arviv, Chulaka Gunasekara, Benjamin
Sznajder, Noam Slonim, Eyal Shnarch
- Abstract要約: モデル層間の漸進的な改善により、推論中に上位層と下位層のコントラストから追加情報を得ることが可能である、と我々は主張する。
テキスト生成出力を改善するために,レイヤ間のコントラストを利用した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 14.596485032985328
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Applying language models to natural language processing tasks typically
relies on the representations in the final model layer, as intermediate hidden
layer representations are presumed to be less informative. In this work, we
argue that due to the gradual improvement across model layers, additional
information can be gleaned from the contrast between higher and lower layers
during inference. Specifically, in choosing between the probable next token
predictions of a generative model, the predictions of lower layers can be used
to highlight which candidates are best avoided. We propose a novel approach
that utilizes the contrast between layers to improve text generation outputs,
and show that it mitigates degenerative behaviors of the model in open-ended
generation, significantly improving the quality of generated texts.
Furthermore, our results indicate that contrasting between model layers at
inference time can yield substantial benefits to certain aspects of general
language model capabilities, more effectively extracting knowledge during
inference from a given set of model parameters.
- Abstract(参考訳): 自然言語処理タスクへの言語モデルの適用は、中間的な隠蔽層表現がより情報的でないと仮定されるため、通常、最終モデル層の表現に依存する。
本研究では,モデル層間の漸進的な改善により,推論中の上位層と下位層のコントラストから付加的な情報を得ることができる,と論じる。
具体的には、生成モデルの次のトークン予測を選択する際に、下位層の予測を使用して、最も避けられる候補をハイライトすることができる。
テキスト生成出力を改善するために層間のコントラストを利用する新しい手法を提案し、オープンエンド世代におけるモデルの退化挙動を緩和し、生成したテキストの品質を著しく改善することを示す。
さらに,推論時のモデルレイヤ間の対比は,一般的な言語モデル能力の特定の側面に実質的なメリットをもたらし,与えられたモデルパラメータのセットから推論中の知識をより効果的に抽出できることを示す。
関連論文リスト
- Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Topic Modeling as Multi-Objective Contrastive Optimization [46.24876966674759]
近年の表現学習アプローチは、ログライクリフのエビデンスローバウンド(ELBO)の重み付けされた線形結合と、入力文書のペアを対比する対照的な学習目標を最適化することにより、ニューラルトピックモデルを強化する。
本稿では,一組の入力文書間で共有される有用なセマンティクスを捉えるために,話題ベクトルの集合を指向した新しいコントラスト学習手法を提案する。
我々のフレームワークは、トピックコヒーレンス、トピックの多様性、下流のパフォーマンスの観点から、高性能なニューラルトピックモデルを一貫して生成する。
論文 参考訳(メタデータ) (2024-02-12T11:18:32Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。