論文の概要: Repetitions are not all alike: distinct mechanisms sustain repetition in language models
- arxiv url: http://arxiv.org/abs/2504.01100v2
- Date: Tue, 04 Nov 2025 16:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.145834
- Title: Repetitions are not all alike: distinct mechanisms sustain repetition in language models
- Title(参考訳): 繰り返しはすべて同じではない:異なるメカニズムが言語モデルにおいて繰り返しを持続する
- Authors: Matéo Mahaut, Francesca Franzon,
- Abstract要約: 本研究は, モデル学習において, 異なるメカニズムから行動に類似した反復パターンが生じるか, およびそれらのメカニズムがどのように発達するかを検討する。
ICL-context repetitionは、トレーニングよりも徐々に専門化していく注目ヘッドのネットワークに依存しているのに対し、自然発生の反復は早期に出現し、定義回路が欠落している。
- 参考スコア(独自算出の注目度): 1.6271572050069254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can sometimes degrade into repetitive loops, persistently generating identical word sequences. Because repetition is rare in natural human language, its frequent occurrence across diverse tasks and contexts in LLMs remains puzzling. Here we investigate whether behaviorally similar repetition patterns arise from distinct underlying mechanisms and how these mechanisms develop during model training. We contrast two conditions: repetitions elicited by natural text prompts with those induced by in-context learning (ICL) setups that explicitly require copying behavior. Our analyses reveal that ICL-induced repetition relies on a dedicated network of attention heads that progressively specialize over training, whereas naturally occurring repetition emerges early and lacks a defined circuitry. Attention inspection further shows that natural repetition focuses disproportionately on low-information tokens, suggesting a fallback behavior when relevant context cannot be retrieved. These results indicate that superficially similar repetition behaviors originate from qualitatively different internal processes, reflecting distinct modes of failure and adaptation in language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は時として繰り返しループに分解され、同じ単語列を持続的に生成する。
自然言語では反復は稀であるため、LLMにおける様々なタスクやコンテキストにまたがって頻繁に発生する。
本稿では, モデル学習において, 異なるメカニズムから行動に類似した反復パターンが生じるか, それらのメカニズムがどのように発達するかを検討する。
我々は、自然なテキストプロンプトによって引き起こされる反復と、コピー動作を明示的に要求するインコンテキストラーニング(ICL)設定によって引き起こされる反復の2つの条件を対比する。
ICLにより誘発される反復は、訓練よりも徐々に専門化していく注目ヘッドのネットワークに依存しているのに対し、自然に生じる反復は早期に出現し、定義回路が欠如している。
注意点検により、自然反復は低情報トークンに不均等に焦点を合わせ、関連するコンテキストを検索できない場合のフォールバック行動が示唆される。
これらの結果は、表面的に類似した反復行動は、定性的に異なる内部過程から発生し、言語モデルにおける異なる障害モードと適応を反映していることを示している。
関連論文リスト
- In-Context Learning can distort the relationship between sequence likelihoods and biological fitness [0.0]
テキスト内学習は、シーケンスの適合度と可能性スコアの関係を歪曲することができることを示す。
この現象は、繰り返しモチーフを含む配列の異常に高い確率スコアとして現れる。
論文 参考訳(メタデータ) (2025-04-23T19:30:01Z) - Understanding the Repeat Curse in Large Language Models from a Feature Perspective [10.413608338398785]
大規模言語モデル(LLM)は、しばしば反復的なテキスト生成に悩まされる。
本稿では,Repeat Curse を誘導・解析するための新しい手法 "Duplicatus Charm" を提案する。
論文 参考訳(メタデータ) (2025-04-19T07:53:37Z) - Deterministic or probabilistic? The psychology of LLMs as random number generators [0.0]
大規模言語モデル(LLM)は、本質的に確率的文脈認識機構を通じてテキスト生成を変換している。
この結果から, 変圧器をベースとしたモデルでは, ランダムな数値出力を誘導すると, 決定論的応答が生じることが判明した。
論文 参考訳(メタデータ) (2025-02-27T10:45:27Z) - Unveiling Attractor Cycles in Large Language Models: A Dynamical Systems View of Successive Paraphrasing [28.646627695015646]
反復変換は、固定点や極限サイクルを含む引き付け子として知られる安定な構成をもたらす。
この視点を入力テキストを出力テキストに反復的にマッピングする大規模言語モデル(LLM)に適用すると、長期的な振る舞いを特徴づけるための原則化されたアプローチが得られる。
代々の言い回しはそのような力学を探求するための説得力のあるテストベッドとして機能し、言い回しは言語的変化を伴う同じ基礎的な意味を再表現する。
論文 参考訳(メタデータ) (2025-02-21T04:46:57Z) - Nested replicator dynamics, nested logit choice, and similarity-based learning [56.98352103321524]
我々は,分割型類似性構造を持つアクションセットを持つゲームにおいて,学習と進化のモデルを考える。
このモデルでは、修正エージェントは現在の戦略と類似とみなす他の戦略を比較する確率が高い。
同様の戦略に対するこの暗黙の偏見のため、結果として生じる力学は模倣ゲーム力学の標準的な単調性合理性のいずれかを満たすことができない。
論文 参考訳(メタデータ) (2024-07-25T07:09:53Z) - From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty [67.81977289444677]
大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
転倒行動(シークエンス反復、退化テキスト、幻覚)を分類し、それらを広範囲に分析する。
我々の実験では、これらのすべての軸にまたがる、明確な、一貫したフォールバック動作の順序が明らかになりました。
論文 参考訳(メタデータ) (2024-07-08T16:13:42Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Replicable Reinforcement Learning [15.857503103543308]
本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
論文 参考訳(メタデータ) (2023-05-24T16:05:15Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Composed Variational Natural Language Generation for Few-shot Intents [118.37774762596123]
現実的な不均衡シナリオにおいて、数ショットのインテントに対するトレーニング例を生成します。
生成した発話の質を評価するために、一般化された複数ショット意図検出タスクについて実験を行った。
提案モデルでは,2つの実世界の意図検出データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-09-21T17:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。