Fugu-MT 論文翻訳(概要): Reverse Training to Nurse the Reversal Curse

論文の概要: Reverse Training to Nurse the Reversal Curse

arxiv url: http://arxiv.org/abs/2403.13799v1
Date: Wed, 20 Mar 2024 17:55:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 15:48:57.776997
Title: Reverse Training to Nurse the Reversal Curse
Title（参考訳）: リバースカース教育のためのリバーストレーニング
Authors: Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar,
Abstract要約: 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。
参考スコア（独自算出の注目度）: 42.8324011011372
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have a surprising failure: when trained on "A has a feature B", they do not generalize to "B is a feature of A", which is termed the Reversal Curse. Even when training with trillions of tokens this issue still appears due to Zipf's law - hence even if we train on the entire internet. This work proposes an alternative training scheme, called reverse training, whereby all words are used twice, doubling the amount of available tokens. The LLM is trained in both forward and reverse directions by reversing the training strings while preserving (i.e., not reversing) chosen substrings, such as entities. We show that data-matched reverse-trained models provide superior performance to standard models on standard tasks, and compute-matched reverse-trained models provide far superior performance on reversal tasks, helping resolve the reversal curse issue.
Abstract（参考訳）: 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。何十兆ものトークンでトレーニングしても、Zipfの法則によって、この問題は依然として現れます。この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。 LLMは、例えばエンティティのような選択されたサブストリングを保存しながら、トレーニング文字列を反転させることで、前方方向と逆方向の両方で訓練される。我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。

関連論文リスト

Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge [16.509342332774747]
本研究では,一層変圧器でも勾配降下の暗黙バイアスを解析することにより,逆の呪いを破ることができることを示す。我々の研究は、逆の呪いの新たな理論基盤を提供し、データからより高いレベルのルールを学ぶことをLLMに奨励する原則的かつ低コストな経路を提供する。
論文参考訳（メタデータ） (2026-02-02T18:50:57Z)
Understanding the Reversal Curse Mitigation in Masked Diffusion Models through Attention and Training Dynamics [9.377137420607541]
仮面拡散に基づく言語モデル(MDM)は、この失敗をはるかに弱い形で示す。一般的な説明では、この緩和はいかなる順序の訓練目標にも当てはまる。この緩和は、建築構造とトレーニングとの相互作用から生じることを示す。
論文参考訳（メタデータ） (2026-02-02T14:17:08Z)
Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文参考訳（メタデータ） (2025-10-20T16:45:43Z)
Reverse Modeling in Large Language Models [39.18082267850437]
人間は前もって読み書きに慣れている。本稿では,自己回帰型大規模言語モデル (LLM) が逆モデリングに苦しむかを検討する。
論文参考訳（メタデータ） (2024-10-13T12:24:03Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs [68.553807705044]
金魚の喪失と呼ばれる次の訓練目標に微妙な修正を加える。トレーニング中、ランダムにサンプリングされたトークンのサブセットは損失計算から除外される。これらのドロップトークンはモデルによって記憶されないため、トレーニングセットから完全なトークンの連鎖を冗長に再現することができない。
論文参考訳（メタデータ） (2024-06-14T17:44:22Z)
Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics [45.69328374321502]
自動回帰型大言語モデル(LLM)は、多くの複雑な推論タスクを解くのに優れた能力を示す。 LLM は、2つの文が意味的に同一であっても、推論中に '$B get A$' と結論付けることができない。 2つの自己回帰モデルに対する勾配降下のトレーニング力学を用いて、理論的に逆の呪いを解析する。
論文参考訳（メタデータ） (2024-05-07T21:03:51Z)
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文参考訳（メタデータ） (2024-03-01T18:55:20Z)
Mitigating the Learning Bias towards Repetition by Self-Contrastive Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。トークンレベルの反復確率の過大評価は学習バイアスに起因している。 LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文参考訳（メタデータ） (2023-07-04T07:53:55Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。