論文の概要: Repetitions are not all alike: distinct mechanisms sustain repetition in language models
- arxiv url: http://arxiv.org/abs/2504.01100v1
- Date: Tue, 01 Apr 2025 18:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:44.890980
- Title: Repetitions are not all alike: distinct mechanisms sustain repetition in language models
- Title(参考訳): 繰り返しはすべて同じではない:異なるメカニズムが言語モデルにおいて繰り返しを持続する
- Authors: Matéo Mahaut, Francesca Franzon,
- Abstract要約: 反復配列は様々なタスクや状況下で出現し、複数の要因によって駆動される可能性がある。
言語モデル (LM) の内部動作を2つの条件下で検討し, 繰り返しを行う。
- 参考スコア(独自算出の注目度): 0.09208007322096534
- License:
- Abstract: Text generated by language models (LMs) can degrade into repetitive cycles, where identical word sequences are persistently repeated one after another. Prior research has typically treated repetition as a unitary phenomenon. However, repetitive sequences emerge under diverse tasks and contexts, raising the possibility that it may be driven by multiple underlying factors. Here, we experimentally explore the hypothesis that repetition in LMs can result from distinct mechanisms, reflecting different text generation strategies used by the model. We examine the internal working of LMs under two conditions that prompt repetition: one in which repeated sequences emerge naturally after human-written text, and another where repetition is explicitly induced through an in-context learning (ICL) setup. Our analysis reveals key differences between the two conditions: the model exhibits varying levels of confidence, relies on different attention heads, and shows distinct pattens of change in response to controlled perturbations. These findings suggest that distinct internal mechanisms can interact to drive repetition, with implications for its interpretation and mitigation strategies. More broadly, our results highlight that the same surface behavior in LMs may be sustained by different underlying processes, acting independently or in combination.
- Abstract(参考訳): 言語モデル(LM)によって生成されたテキストは繰り返しサイクルに分解され、同じ単語列が次々と連続的に繰り返される。
従来の研究では、反復は単体現象として扱われてきた。
しかし、反復配列は様々なタスクや状況下で出現し、複数の要因によって駆動される可能性がある。
そこで本研究では,LMにおける繰り返しは,モデルが使用する異なるテキスト生成戦略を反映して,異なるメカニズムから生じるという仮説を実験的に検討する。
そこで本研究では,人間が書き起こしたテキストの後に繰り返しシーケンスが自然に出現する状況と,テキスト内学習(ICL)によって繰り返しが明示的に誘導される状況の2つの条件下で,LMの内部動作について検討する。
モデルでは, 異なる信頼度を示し, 異なる注意点に依存し, 制御された摂動に応答して, 異なる変化のパタンを示す。
これらの知見は、異なる内部機構が反復を促進するために相互作用し、その解釈と緩和戦略に意味があることを示唆している。
より広義には、LMにおける同じ表面挙動は異なるプロセスによって維持され、独立に、あるいは組み合わせて作用する可能性がある。
関連論文リスト
- Nested replicator dynamics, nested logit choice, and similarity-based learning [56.98352103321524]
我々は,分割型類似性構造を持つアクションセットを持つゲームにおいて,学習と進化のモデルを考える。
このモデルでは、修正エージェントは現在の戦略と類似とみなす他の戦略を比較する確率が高い。
同様の戦略に対するこの暗黙の偏見のため、結果として生じる力学は模倣ゲーム力学の標準的な単調性合理性のいずれかを満たすことができない。
論文 参考訳(メタデータ) (2024-07-25T07:09:53Z) - From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty [67.81977289444677]
大型言語モデル(LLM)は幻覚やシーケンスの繰り返しのような望ましくない振る舞いを示すことが多い。
転倒行動(シークエンス反復、退化テキスト、幻覚)を分類し、それらを広範囲に分析する。
我々の実験では、これらのすべての軸にまたがる、明確な、一貫したフォールバック動作の順序が明らかになりました。
論文 参考訳(メタデータ) (2024-07-08T16:13:42Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Replicable Reinforcement Learning [15.857503103543308]
本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
論文 参考訳(メタデータ) (2023-05-24T16:05:15Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - PVGRU: Generating Diverse and Relevant Dialogue Responses via
Pseudo-Variational Mechanism [21.705686583621816]
既存の生成モデルは、通常、シーケンスを要約するために最後の隠れ状態を使用する。
後続知識を伴わない擬似可変Gated Recurrent Unit (PVGRU) を提案する。
PVGRUは、考案された分布の一貫性と再構成目的によって最適化された変数を要約することで、微妙な意味的変動を知覚することができる。
論文 参考訳(メタデータ) (2022-12-18T13:36:07Z) - Composed Variational Natural Language Generation for Few-shot Intents [118.37774762596123]
現実的な不均衡シナリオにおいて、数ショットのインテントに対するトレーニング例を生成します。
生成した発話の質を評価するために、一般化された複数ショット意図検出タスクについて実験を行った。
提案モデルでは,2つの実世界の意図検出データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-09-21T17:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。