論文の概要: Understanding the Repeat Curse in Large Language Models from a Feature Perspective
- arxiv url: http://arxiv.org/abs/2504.14218v1
- Date: Sat, 19 Apr 2025 07:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:09:47.219051
- Title: Understanding the Repeat Curse in Large Language Models from a Feature Perspective
- Title(参考訳): 特徴から見た大規模言語モデルにおける反復曲線の理解
- Authors: Junchi Yao, Shu Yang, Jianhua Xu, Lijie Hu, Mengdi Li, Di Wang,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば反復的なテキスト生成に悩まされる。
本稿では,Repeat Curse を誘導・解析するための新しい手法 "Duplicatus Charm" を提案する。
- 参考スコア(独自算出の注目度): 10.413608338398785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made remarkable progress in various domains, yet they often suffer from repetitive text generation, a phenomenon we refer to as the "Repeat Curse". While previous studies have proposed decoding strategies to mitigate repetition, the underlying mechanism behind this issue remains insufficiently explored. In this work, we investigate the root causes of repetition in LLMs through the lens of mechanistic interpretability. Inspired by recent advances in Sparse Autoencoders (SAEs), which enable monosemantic feature extraction, we propose a novel approach, "Duplicatus Charm", to induce and analyze the Repeat Curse. Our method systematically identifies "Repetition Features" -the key model activations responsible for generating repetitive outputs. First, we locate the layers most involved in repetition through logit analysis. Next, we extract and stimulate relevant features using SAE-based activation manipulation. To validate our approach, we construct a repetition dataset covering token and paragraph level repetitions and introduce an evaluation pipeline to quantify the influence of identified repetition features. Furthermore, by deactivating these features, we have effectively mitigated the Repeat Curse.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な進歩を遂げてきたが、しばしば繰り返しテキスト生成に悩まされる。
これまでの研究では、繰り返しを緩和するための復号化戦略が提案されていたが、この問題の根底にあるメカニズムはまだ十分に解明されていない。
本研究では, LLMの繰り返しの根本原因について, 機械的解釈可能性のレンズを用いて検討する。
モノセマンティックな特徴抽出を可能にするスパースオートエンコーダ(SAEs)の最近の進歩に触発され、我々は「Duplicatus Charm」という新しいアプローチを提案し、リピートカースを誘導・解析する。
提案手法は,繰り返し出力を生成するキーモデルアクティベーションである「繰り返し特徴」を体系的に識別する。
まず、ロジット分析により、繰り返しに最も関わった層を見つけ出す。
次に、SAEに基づくアクティベーション操作を用いて、関連する特徴を抽出し、刺激する。
提案手法の有効性を検証するために,トークンおよび段落レベルの繰り返しをカバーする反復データセットを構築し,識別された繰り返し特徴の影響を定量化する評価パイプラインを導入する。
さらに,これらの特徴を非活性化することにより,Repeat Curseを効果的に緩和した。
関連論文リスト
- Reasoning on Multiple Needles In A Haystack [9.765859280987053]
直接質問をフィルタリングすることで,メモリベースの回答問題に対処する。
この知見に基づいて,マルチラウンド拡張のためのリフレクション機構を導入する。
生成した反復的思考プロセスを使用してモデルをトレーニングし、パフォーマンスの劣化を軽減する。
論文 参考訳(メタデータ) (2025-04-05T11:58:08Z) - Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Joint Repetition Suppression and Content Moderation of Large Language
Models [4.9990392459395725]
自然言語生成(NLG)は、NLPにおいて最も影響力のある分野の一つである。
本稿では,トークンとシーケンスレベルを用いた非実効的繰り返し抑制に適用する。
また,攻撃的な単語の生成を避けるために,モデルに協調的に支援するために,違和感のある学習目標の枠組みについても検討する。
論文 参考訳(メタデータ) (2023-04-20T19:17:49Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。