論文の概要: Repetition Neurons: How Do Language Models Produce Repetitions?
- arxiv url: http://arxiv.org/abs/2410.13497v1
- Date: Thu, 17 Oct 2024 12:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:06.176126
- Title: Repetition Neurons: How Do Language Models Produce Repetitions?
- Title(参考訳): 反復ニューロン: 言語モデルはどのように繰り返しを生み出すか?
- Authors: Tatsuya Hiraoka, Kentaro Inui,
- Abstract要約: 本稿では,テキスト生成タスクにおける繰り返し問題の原因となるスキルニューロンとして,反復ニューロンを紹介する。
近年の訓練済み言語モデルにより生成されたテキストの繰り返し開始前後のアクティベーション値を比較することで、これらの繰り返しニューロンを同定する。
- 参考スコア(独自算出の注目度): 25.430820735194768
- License:
- Abstract: This paper introduces repetition neurons, regarded as skill neurons responsible for the repetition problem in text generation tasks. These neurons are progressively activated more strongly as repetition continues, indicating that they perceive repetition as a task to copy the previous context repeatedly, similar to in-context learning. We identify these repetition neurons by comparing activation values before and after the onset of repetition in texts generated by recent pre-trained language models. We analyze the repetition neurons in three English and one Japanese pre-trained language models and observe similar patterns across them.
- Abstract(参考訳): 本稿では,テキスト生成タスクにおける繰り返し問題の原因となるスキルニューロンとして,反復ニューロンを紹介する。
これらのニューロンは、反復が続くにつれて徐々に強く活性化され、文脈内での学習と同様に、以前の文脈を反復的にコピーするタスクとして繰り返しを知覚することを示している。
近年の訓練済み言語モデルにより生成されたテキストの繰り返し開始前後のアクティベーション値を比較することで、これらの繰り返しニューロンを同定する。
3つの英語および1つの日本語事前学習言語モデルにおける反復ニューロンを解析し、それらに類似したパターンを観察する。
関連論文リスト
- From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty [67.81977289444677]
大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
転倒行動(シークエンス反復、退化テキスト、幻覚)を分類し、それらを広範囲に分析する。
我々の実験では、これらのすべての軸にまたがる、明確な、一貫したフォールバック動作の順序が明らかになりました。
論文 参考訳(メタデータ) (2024-07-08T16:13:42Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Generating Repetitions with Appropriate Repeated Words [30.10429353715689]
他人との信頼を構築するために、コミュニケーションには繰り返しが不可欠です。
私たちの知る限りでは、これは反復生成に対処する最初のニューラルアプローチです。
本稿では,微調整中にどの単語を繰り返すかを明確に学習するための平滑化手法であるWeighted Label Smoothingと,復号時により適切な繰り返しを出力できる繰り返しスコアリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-03T01:21:49Z) - Learning to Break the Loop: Analyzing and Mitigating Repetitions for
Neural Text Generation [41.3948101212288]
本稿では,反復トークンの確率と,その文脈における過去の繰り返しとの関係について検討する。
擬似反復データから文レベルの繰り返しの確率をペナルティ化する訓練手法を提案する。
論文 参考訳(メタデータ) (2022-06-06T05:51:12Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - On-the-Fly Attention Modularization for Neural Generation [54.912042110885366]
生成したテキストは反復的であり,汎用的であり,自己矛盾であり,常識を欠いている。
本研究は,インダクティブバイアスを推論中に注入する簡易かつ効果的な手法である,オンザフライアテンション・モダナイゼーションを動機とする。
論文 参考訳(メタデータ) (2021-01-02T05:16:46Z) - Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration [45.14559188965439]
ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用することを提案する。
我々は報酬を通じて繰り返し、矛盾、タスク関連に関する文レベル情報を蒸留する。
実験により,我々のモデルは,自動測定結果と人的評価結果の両方において,従来の最先端対話モデルよりも優れていたことがわかった。
論文 参考訳(メタデータ) (2020-12-31T00:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。