論文の概要: Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors
- arxiv url: http://arxiv.org/abs/2502.19669v1
- Date: Thu, 27 Feb 2025 01:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:19.685339
- Title: Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors
- Title(参考訳): タイポグラフィーエラーに対するトランスフォーマーを用いたLPMのニューロンと頭部の検討
- Authors: Kohei Tsuji, Tatsuya Hiraoka, Yuchang Cheng, Eiji Aramaki, Tomoya Iwakura,
- Abstract要約: 本稿では,LLMが入力をタイプミスでエンコードする方法について検討する。
本稿では,入力にタイポが含まれている場合にアクティブに機能する入力ニューロンとタイポヘッドを同定する手法を提案する。
- 参考スコア(独自算出の注目度): 5.747738795689892
- License:
- Abstract: This paper investigates how LLMs encode inputs with typos. We hypothesize that specific neurons and attention heads recognize typos and fix them internally using local and global contexts. We introduce a method to identify typo neurons and typo heads that work actively when inputs contain typos. Our experimental results suggest the following: 1) LLMs can fix typos with local contexts when the typo neurons in either the early or late layers are activated, even if those in the other are not. 2) Typo neurons in the middle layers are responsible for the core of typo-fixing with global contexts. 3) Typo heads fix typos by widely considering the context not focusing on specific tokens. 4) Typo neurons and typo heads work not only for typo-fixing but also for understanding general contexts.
- Abstract(参考訳): 本稿では,LLMが入力をタイプミスでエンコードする方法について検討する。
我々は、特定のニューロンと注意頭がタイプミスを認識し、局所的およびグローバル的文脈を用いてそれらを内部的に修正する、という仮説を立てる。
本稿では,入力にタイポが含まれている場合にアクティブに機能する入力ニューロンとタイポヘッドを同定する手法を提案する。
実験の結果,以下のことが示唆された。
1) LLM は, 早期, 後期のいずれの層でも, いずれの層でもタイポニューロンが活性化された場合に, 局所的な文脈でタイポを固定することができる。
2)中層におけるTypoニューロンは,グローバルな文脈でのTypo固定の核となる役割を担っている。
3) タイポヘッドは特定のトークンに焦点を絞らない文脈を広く考慮してタイポを固定する。
4) タイポニューロンとタイポヘッドは, タイポ固定だけでなく, 一般的な文脈の理解にも有効である。
関連論文リスト
- Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Rectifier: Code Translation with Corrector via LLMs [11.38401806203093]
本稿では,翻訳誤りを修復するマイクロ・ユニバーサルモデルであるRectifierを提案する。
C++,Java,Python間の翻訳タスクの実験結果から,本モデルが有効な修復能力を有することが示された。
論文 参考訳(メタデータ) (2024-07-10T08:58:41Z) - Tokenization Falling Short: On Subword Robustness in Large Language Models [12.193639356480851]
本研究では,これらの課題とその言語モデルへの影響を体系的に検討する。
その結果,スケーリングモデルパラメータはトークン化の問題を軽減することができることがわかった。
実験の結果,BPEドロップアウトなどのサブワード正規化がこの問題を緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T16:05:32Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Spelling Correction with Denoising Transformer [0.0]
本稿では,検索クエリや個々の単語など,短い入力文字列に対してスペル補正を行う手法を提案する。
その核となるのは、人間が示すエラーパターンに密接に従う人工的タイプミスを生成する手順である。
この手順は、トランスアーキテクチャに基づく生産スペル補正モデルのトレーニングに使用されます。
論文 参考訳(メタデータ) (2021-05-12T21:35:18Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。