論文の概要: The Factorization Curse: Which Tokens You Predict Underlie the Reversal Curse and More
- arxiv url: http://arxiv.org/abs/2406.05183v1
- Date: Fri, 7 Jun 2024 18:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:55:40.709212
- Title: The Factorization Curse: Which Tokens You Predict Underlie the Reversal Curse and More
- Title(参考訳): 因子化のカース:逆転のカースを根底から予測するツール
- Authors: Ouail Kitouni, Niklas Nolte, Diane Bouchacourt, Adina Williams, Mike Rabbat, Mark Ibrahim,
- Abstract要約: 本研究では,学習中に遭遇した情報と異なる順序で探索した場合に,モデルが情報を思い出すことができない逆の呪文について検討する。
因子化の呪いは、一般的な大言語モデルで使われる次のトーケン予測目標の固有の失敗であることがわかった。
因子化に依存しない目的は、逆の呪いを著しく軽減し、知識記憶と計画能力の向上を示唆する。
- 参考スコア(独自算出の注目度): 27.731438642876114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's best language models still struggle with hallucinations: factually incorrect generations, which impede their ability to reliably retrieve information seen during training. The reversal curse, where models cannot recall information when probed in a different order than was encountered during training, exemplifies this in information retrieval. We reframe the reversal curse as a factorization curse - a failure of models to learn the same joint distribution under different factorizations. Through a series of controlled experiments with increasing levels of realism including WikiReversal, a setting we introduce to closely simulate a knowledge intensive finetuning task, we find that the factorization curse is an inherent failure of the next-token prediction objective used in popular large language models. Moreover, we demonstrate reliable information retrieval cannot be solved with scale, reversed tokens, or even naive bidirectional-attention training. Consequently, various approaches to finetuning on specialized data would necessarily provide mixed results on downstream tasks, unless the model has already seen the right sequence of tokens. Across five tasks of varying levels of complexity, our results uncover a promising path forward: factorization-agnostic objectives can significantly mitigate the reversal curse and hint at improved knowledge storage and planning capabilities.
- Abstract(参考訳): 今日の最高の言語モデルは、実際には誤った世代という幻覚に苦しむ。
逆の呪文は、トレーニング中に遭遇した異なる順序で探索された時に、モデルが情報を思い出せないというものであり、情報検索においてこれを例示している。
私たちは、逆の呪いを因子化の呪いとして再設定します - モデルが異なる因子化の下で同じ結合分布を学習する失敗です。
WikiReversal(知識集約的な微調整タスクを密にシミュレートするための設定)を含む現実主義のレベルを増大させる一連の制御実験を通じて、ファクタライゼーションの呪いは、人気のある大言語モデルで使われる次のトーケン予測目標の固有の失敗であることがわかった。
さらに,信頼度の高い情報検索は,スケールや逆トークン,さらにはナイーブな双方向アテンショントレーニングでは解決できないことを示す。
その結果、特定のデータを微調整する様々なアプローチは、既に正しいトークン列を目にしなければ、ダウンストリームタスクで混合結果をもたらす必要がある。
因子化に依存しない目的は、逆の呪いを著しく軽減し、知識記憶と計画能力の改善を示唆する。
関連論文リスト
- Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。