論文の概要: Failure by Interference: Language Models Make Balanced Parentheses Errors When Faulty Mechanisms Overshadow Sound Ones
- arxiv url: http://arxiv.org/abs/2507.00322v1
- Date: Mon, 30 Jun 2025 23:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.128085
- Title: Failure by Interference: Language Models Make Balanced Parentheses Errors When Faulty Mechanisms Overshadow Sound Ones
- Title(参考訳): 干渉による失敗: 言語モデルでは、故障メカニズムが音を覆い隠すとき、バランスの取れたペアレンセがエラーになる
- Authors: Daking Rai, Samuel Miller, Kevin Moran, Ziyu Yao,
- Abstract要約: 言語モデル(LM)は、バランスの取れた括弧を生成するといった単純な構文的タスクに苦戦している。
本研究により,LMは独立して予測を行う多くのコンポーネントに依存していることが明らかとなった。
本稿では,モデル性能向上のための信頼性の高いコンポーネントの貢献を体系的に同定し,向上するためのステアリング手法であるRASteerを紹介する。
- 参考スコア(独自算出の注目度): 13.381339115567288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable advances in coding capabilities, language models (LMs) still struggle with simple syntactic tasks such as generating balanced parentheses. In this study, we investigate the underlying mechanisms behind the persistence of these errors across LMs of varying sizes (124M-7B) to both understand and mitigate the errors. Our study reveals that LMs rely on a number of components (attention heads and FF neurons) that independently make their own predictions. While some components reliably promote correct answers across a generalized range of inputs (i.e., implementing "sound mechanisms''), others are less reliable and introduce noise by promoting incorrect tokens (i.e., implementing "faulty mechanisms''). Errors occur when the faulty mechanisms overshadow the sound ones and dominantly affect the predictions. Motivated by this insight, we introduce RASteer, a steering method to systematically identify and increase the contribution of reliable components for improving model performance. RASteer substantially improves performance on balanced parentheses tasks, boosting accuracy of some models from $0$% to around $100$% without impairing the models' general coding ability. We further demonstrate its broader applicability in arithmetic reasoning tasks, achieving performance gains of up to around $20$%.
- Abstract(参考訳): コーディング能力の著しい進歩にもかかわらず、言語モデル(LM)はバランスの取れた括弧を生成するといった単純な構文的タスクに苦戦している。
本研究では,これらの誤りの持続性の背後にあるメカニズムを,異なる大きさのLM(124M-7B)にまたがって検討し,誤りの理解と軽減を図る。
我々の研究は、LMが独立して予測を行う多くのコンポーネント(アテンションヘッドとFFニューロン)に依存していることを明らかにした。
一部のコンポーネントは、一般化された入力範囲にわたる正しい答えを確実に促進する(すなわち「音のメカニズム」を実装する)が、他のコンポーネントは信頼性が低く、不正なトークン(すなわち「音のメカニズム」を実装する)を宣伝することでノイズを発生させる。
誤りは、故障機構が音を覆い、予測に大きく影響を及ぼすときに起こる。
本稿では,モデルの性能向上のための信頼性の高いコンポーネントの貢献を体系的に識別し,向上させるステアリング手法であるRASteerを紹介する。
RASteerはバランスの取れた括弧タスクのパフォーマンスを大幅に改善し、モデルの一般的なコーディング能力を損なうことなく、いくつかのモデルの精度を0$%から100$%に向上させる。
さらに、算術的推論タスクにおけるより広範な適用性を示し、最大20ドル程度の性能向上を実現しています。
関連論文リスト
- Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。