論文の概要: ToW: Thoughts of Words Improve Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.16235v1
- Date: Mon, 21 Oct 2024 17:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:10.197868
- Title: ToW: Thoughts of Words Improve Reasoning in Large Language Models
- Title(参考訳): ToW:大規模言語モデルの推論を改善する単語の考え
- Authors: Zhikun Xu, Ming Shen, Jacob Dineen, Zhaonan Li, Xiao Ye, Shijie Lu, Aswin RRV, Chitta Baral, Ben Zhou,
- Abstract要約: 我々は,単語の思考(ToW)を導入し,次の単語予測のための訓練時間データ拡張手法を提案する。
ToWは、次の単語予測を中核的推論タスクとみなし、次の単語が何であるべきかを説明するきめ細かい思考を注入する。
モデル推論性能を平均で7%から9%改善し、モデル幻覚を最大10%低減する。
- 参考スコア(独自算出の注目度): 33.143693077159995
- License:
- Abstract: We introduce thoughts of words (ToW), a novel training-time data-augmentation method for next-word prediction. ToW views next-word prediction as a core reasoning task and injects fine-grained thoughts explaining what the next word should be and how it is related to the previous contexts in pre-training texts. Our formulation addresses two fundamental drawbacks of existing next-word prediction learning schemes: they induce factual hallucination and are inefficient for models to learn the implicit reasoning processes in raw texts. While there are many ways to acquire such thoughts of words, we explore the first step of acquiring ToW annotations through distilling from larger models. After continual pre-training with only 70K ToW annotations, we effectively improve models' reasoning performances by 7% to 9% on average and reduce model hallucination by up to 10%. At the same time, ToW is entirely agnostic to tasks and applications, introducing no additional biases on labels or semantics.
- Abstract(参考訳): 我々は,単語の思考(ToW)を導入し,次の単語予測のための訓練時間データ拡張手法を提案する。
ToWは、次の単語の予測を中核的推論タスクとみなし、次の単語が何であるべきか、それが事前学習されたテキストの以前の文脈とどのように関連しているかを説明する微妙な思考を注入する。
我々の定式化は、既存の次の単語予測学習スキームの2つの根本的な欠点に対処する: それらは事実の幻覚を誘発し、生のテキストで暗黙の推論過程を学習するモデルにとって非効率である。
このような言葉の思考を得るには多くの方法があるが、我々は大規模モデルからの蒸留を通じてToWアノテーションを取得するための第一歩を探求する。
70K ToWアノテーションで継続事前トレーニングを行った後、モデル推論性能を平均7%から9%改善し、モデル幻覚を最大10%低減した。
同時に、ToWはタスクやアプリケーションに完全に依存せず、ラベルやセマンティクスに新たなバイアスを生じさせない。
関連論文リスト
- Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Does He Wink or Does He Nod? A Challenging Benchmark for Evaluating Word
Understanding of Language Models [0.6091702876917281]
大規模コーパスにおける事前学習言語モデルの最近の進歩は、多くのNLPタスクにおいて大きなパフォーマンス向上をもたらした。
どのような知識が獲得されたかを評価するため、言語モデルは通常、空白スタイルのクローゼ質問を埋めてクエリすることで探索される。
単語の辞書定義を用いて単語理解を直接評価するためにWDLMProを導入する。
論文 参考訳(メタデータ) (2021-02-06T15:15:57Z) - Attention Word Embedding [23.997145283950346]
本稿では,アテンションワード埋め込み(AWE)モデルを紹介し,アテンションメカニズムをCBOWモデルに統合する。
また,サブワード情報を組み込んだAWE-Sを提案する。
AWEとAWE-Sは、様々な単語類似性データセット上で、最先端の単語埋め込みモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-01T14:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。