論文の概要: GIM: Improved Interpretability for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17630v1
- Date: Fri, 23 May 2025 08:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.934143
- Title: GIM: Improved Interpretability for Large Language Models
- Title(参考訳): GIM:大規模言語モデルの解釈可能性の向上
- Authors: Joakim Edin, Róbert Csordás, Tuukka Ruotsalo, Zhengxuan Wu, Maria Maistro, Jing Huang, Lars Maaløe,
- Abstract要約: セルフリペア(Self-repair)とは、ネットワークが他のコンポーネントを増幅することで信号の減少を補う現象である。
本稿では,バックプロパゲーション中の自己修復を考慮に入れたGIM(Gradient Interaction Modifications)を紹介する。
- 参考スコア(独自算出の注目度): 23.12421433871512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring faithful interpretability in large language models is imperative for trustworthy and reliable AI. A key obstacle is self-repair, a phenomenon where networks compensate for reduced signal in one component by amplifying others, masking the true importance of the ablated component. While prior work attributes self-repair to layer normalization and back-up components that compensate for ablated components, we identify a novel form occurring within the attention mechanism, where softmax redistribution conceals the influence of important attention scores. This leads traditional ablation and gradient-based methods to underestimate the significance of all components contributing to these attention scores. We introduce Gradient Interaction Modifications (GIM), a technique that accounts for self-repair during backpropagation. Extensive experiments across multiple large language models (Gemma 2B/9B, LLAMA 1B/3B/8B, Qwen 1.5B/3B) and diverse tasks demonstrate that GIM significantly improves faithfulness over existing circuit identification and feature attribution methods. Our work is a significant step toward better understanding the inner mechanisms of LLMs, which is crucial for improving them and ensuring their safety. Our code is available at https://github.com/JoakimEdin/gim.
- Abstract(参考訳): 大規模言語モデルにおける忠実な解釈可能性を保証することは、信頼できる信頼性のあるAIにとって不可欠である。
重要な障害は自己修復(Self-repair)であり、ネットワークが他のコンポーネントを増幅することで信号の減少を補う現象であり、アブレーションされたコンポーネントの真の重要性を隠蔽する。
従来の作業は, レイヤ正規化と, 付加成分を補うバックアップコンポーネントに自己修復的特性があるが, 注意機構内に出現する新しい形態を同定し, ソフトマックス再分配が重要な注意点の影響を隠蔽する。
これにより、従来のアブレーションと勾配に基づく手法は、これらの注意点に寄与する全てのコンポーネントの重要性を過小評価する。
本稿では,バックプロパゲーション中の自己修復を考慮に入れたGIM(Gradient Interaction Modifications)を紹介する。
複数の大規模言語モデル(Gemma 2B/9B, LLAMA 1B/3B/8B, Qwen 1.5B/3B)および多種多様なタスク)にわたる広範な実験により、GIMが既存の回路識別と特徴属性法よりも忠実性を大幅に向上することが示された。
我々の研究は、LLMの内部メカニズムをよりよく理解するための重要なステップであり、それらの改善と安全性の確保に不可欠である。
私たちのコードはhttps://github.com/JoakimEdin/gim.comで公開されています。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。
ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。
HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-03-15T05:13:26Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z) - The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights [10.777646083061395]
本稿では,大規模言語モデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである概念編集を紹介する。
我々は、トランスモデルのマルチ層パーセプトロン(MLP)、マルチヘッドアテンション(MHA)、および隠れ状態成分を解析する。
我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
論文 参考訳(メタデータ) (2024-08-05T18:50:08Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - A Context-Aware Feature Fusion Framework for Punctuation Restoration [28.38472792385083]
注意力不足を軽減するために,2種類の注意力(FFA)に基づく新しい特徴融合フレームワークを提案する。
一般的なベンチマークデータセットであるIWSLTの実験は、我々のアプローチが効果的であることを示す。
論文 参考訳(メタデータ) (2022-03-23T15:29:28Z) - Is Attention Better Than Matrix Decomposition? [58.813382406412195]
我々は,長距離依存を符号化する行列分解モデルよりも自己注意の方が優れていることを示す。
本稿では,MDを解くための最適化アルゴリズムを用いて,入力表現をサブ行列に分解し,低ランクな埋め込みを再構築する一連のハンブルガーを提案する。
グローバルな文脈を学習することが不可欠であるビジョンタスクにおいて、総合的な実験が実施される。
論文 参考訳(メタデータ) (2021-09-09T20:40:19Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。