論文の概要: How a Bit Becomes a Story: Semantic Steering via Differentiable Fault Injection
- arxiv url: http://arxiv.org/abs/2512.14715v1
- Date: Tue, 09 Dec 2025 04:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.683543
- Title: How a Bit Becomes a Story: Semantic Steering via Differentiable Fault Injection
- Title(参考訳): ビットがストーリーになる方法 - 微分可能なフォールトインジェクションによるセマンティックステアリング
- Authors: Zafaryab Haider, Md Hafizur Rahman, Shane Moeykens, Vijay Devabhaktuni, Prabuddha Chakraborty,
- Abstract要約: この研究は、低レベルのビットワイド摂動(フォールトインジェクション)がその生成した記述の意味にどのように影響するかを考察する。
画像キャプションモデルでは、1つのフリップしたビットが、視覚的特徴を言葉にどのようにマッピングするかを微妙に変更し、AIが世界について語る物語全体をシフトする。
我々は、勾配に基づく感度推定を用いて意味論的臨界ビットを特定する、微分可能な故障解析フレームワークBLADEを設計する。
- 参考スコア(独自算出の注目度): 1.690922615975256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hard-to-detect hardware bit flips, from either malicious circuitry or bugs, have already been shown to make transformers vulnerable in non-generative tasks. This work, for the first time, investigates how low-level, bitwise perturbations (fault injection) to the weights of a large language model (LLM) used for image captioning can influence the semantic meaning of its generated descriptions while preserving grammatical structure. While prior fault analysis methods have shown that flipping a few bits can crash classifiers or degrade accuracy, these approaches overlook the semantic and linguistic dimensions of generative systems. In image captioning models, a single flipped bit might subtly alter how visual features map to words, shifting the entire narrative an AI tells about the world. We hypothesize that such semantic drifts are not random but differentiably estimable. That is, the model's own gradients can predict which bits, if perturbed, will most strongly influence meaning while leaving syntax and fluency intact. We design a differentiable fault analysis framework, BLADE (Bit-level Fault Analysis via Differentiable Estimation), that uses gradient-based sensitivity estimation to locate semantically critical bits and then refines their selection through a caption-level semantic-fluency objective. Our goal is not merely to corrupt captions, but to understand how meaning itself is encoded, distributed, and alterable at the bit level, revealing that even imperceptible low-level changes can steer the high-level semantics of generative vision-language models. It also opens pathways for robustness testing, adversarial defense, and explainable AI, by exposing how structured bit-level faults can reshape a model's semantic output.
- Abstract(参考訳): 悪意のある回路やバグからのハード・トゥ・ディテクト・ハードウェアのビット・フリップは、トランスフォーマーを非生成的なタスクに脆弱にすることがすでに示されている。
この研究は、画像キャプションに使用される大言語モデル(LLM)の重みに対する低レベルビット幅の摂動(フールインジェクション)が、文法構造を保ちながら生成した記述の意味にどのように影響するかを初めて研究した。
以前の故障解析手法では、いくつかのビットを反転させることで分類器をクラッシュさせたり、精度を低下させることが示されているが、これらの手法は生成系の意味的・言語的次元を見落としている。
画像キャプションモデルでは、1つのフリップしたビットが、視覚的特徴を言葉にどのようにマッピングするかを微妙に変更し、AIが世界について語る物語全体をシフトする。
このようなセマンティックドリフトは、ランダムではなく、異なる方法で推定できるという仮説を立てる。
すなわち、モデル自身の勾配は、摂動すればどのビットが意味に最も強く影響し、構文や流感はそのまま残るかを予測することができる。
我々は,意味論的臨界ビットの同定に勾配に基づく感度推定を用い,その選択をキャプションレベルの意味頻度目標によって洗練する,微分可能な故障解析フレームワークBLADEを設計する。
私たちのゴールは、単に字幕を破損させることではなく、その意味がコード化され、分散され、ビットレベルで変更可能であることを理解することです。
また、構造化ビットレベルの障害がモデルのセマンティックアウトプットをいかに形作るかを明らかにすることで、ロバストネステスト、敵防衛、説明可能なAIのための経路を開く。
関連論文リスト
- Beyond surface form: A pipeline for semantic analysis in Alzheimer's Disease detection from spontaneous speech [4.447462467582385]
アルツハイマー病(英語: Alzheimer's Disease、AD)は、認知能力に悪影響を及ぼす進行性神経変性疾患である。
言語モデルはADのスクリーニングツールの基盤として有望であるが、その限定的な解釈可能性には課題がある。
そこで本研究では,意味内容の保存中に構文や語彙を変更することによって,テキストの表面形状を変換する手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T18:59:49Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Semantic-Syntactic Discrepancy in Images (SSDI): Learning Meaning and Order of Features from Natural Images [7.148054923510877]
画像意味論」と「画像構文」からなる「画像文法」の概念を提案する。
自然画像のみから視覚要素や環境の画像文法を学習するための半教師付き2段階手法を提案する。
提案手法の有効性は,CelebA および SUN-RGBD データセットから生成された破損に対して,70% から90% までの検出率を達成することによって実証される。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Neural String Edit Distance [77.72325513792981]
文字列対分類とシーケンス生成のためのニューラルストリング編集距離モデルを提案する。
オリジナルの期待最大化学習編集距離アルゴリズムを微分可能な損失関数に変更します。
ひとつのフレームワークでパフォーマンスと解釈性をトレードオフできることを示します。
論文 参考訳(メタデータ) (2021-04-16T22:16:47Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。