論文の概要: Conflict Adaptation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.24804v1
- Date: Tue, 28 Oct 2025 01:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.582973
- Title: Conflict Adaptation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける衝突適応
- Authors: Xiaoyang Hu,
- Abstract要約: 人間の認知制御の象徴はコンフリクト適応(コンフリクト適応)である。
逐次Stroopタスクを用いて、13の視覚言語モデル(VLM)のうち12が競合適応と整合した振る舞いを示した。
この動作の表現的基盤を理解するために,InternVL 3.5 4Bにおけるタスク関連スーパーノードの同定にスパースオートエンコーダ(SAE)を用いる。
- 参考スコア(独自算出の注目度): 3.756550107432323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A signature of human cognitive control is conflict adaptation: improved performance on a high-conflict trial following another high-conflict trial. This phenomenon offers an account for how cognitive control, a scarce resource, is recruited. Using a sequential Stroop task, we find that 12 of 13 vision-language models (VLMs) tested exhibit behavior consistent with conflict adaptation, with the lone exception likely reflecting a ceiling effect. To understand the representational basis of this behavior, we use sparse autoencoders (SAEs) to identify task-relevant supernodes in InternVL 3.5 4B. Partially overlapping supernodes emerge for text and color in both early and late layers, and their relative sizes mirror the automaticity asymmetry between reading and color naming in humans. We further isolate a conflict-modulated supernode in layers 24-25 whose ablation significantly increases Stroop errors while minimally affecting congruent trials.
- Abstract(参考訳): 人間の認知制御の象徴はコンフリクト適応(コンフリクト適応)である。
この現象は、認知的制御(リソースの不足)がいかに採用されるかを説明する。
シーケンシャルなStroopタスクを用いて、13の視覚言語モデル(VLM)のうち12のモデルが競合適応と整合した振る舞いを示し、例外は天井効果を反映していることが判明した。
この動作の表現的基盤を理解するために,InternVL 3.5 4Bにおけるタスク関連スーパーノードの同定にスパースオートエンコーダ(SAE)を用いる。
部分的な重なり合うスーパーノードは、初期層と後期層の両方でテキストと色に現れ、相対的な大きさは、人間の読みと色命名の非対称性を反映している。
また,24-25層においてコンフリクト変調されたスーパーノードを分離し,アブレーションによりストループ誤差が著しく増大すると同時に,コングルート試験に最小限の影響を及ぼす。
関連論文リスト
- Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - Mitigating Spurious Negative Pairs for Robust Industrial Anomaly Detection [9.93548802132951]
敵攻撃に対する既存の検出手法の堅牢性は依然として課題であり、自律運転のような現実のアプリケーションにおいて信頼性を損なう。
本稿では,ADにおける対人訓練の理想的目的関数として,正規群から派生した擬似奇形群を提案する。
これらの結果から, 突発性負対が従来のコントラスト損失を損なうことにより, 頑健なADを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T07:32:39Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Fixed Inter-Neuron Covariability Induces Adversarial Robustness [26.878913741674058]
敵対的摂動の脆弱性はディープニューラルネットワーク(DNN)の重大な欠陥である
我々は,各ニューロンが固定された,しかし学習された共変性パターンに従うように,活性化が互いに一致したニューロンからなる自己持続活性化層を開発した。
SCA層を持つモデルは高い精度を達成し、対向的な摂動データでトレーニングされることなく、最先端のAuto-PGD攻撃に対して多層パーセプトロンモデルよりもはるかに堅牢性を示した。
論文 参考訳(メタデータ) (2023-08-07T23:46:14Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。