論文の概要: Conflict Adaptation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.24804v1
- Date: Tue, 28 Oct 2025 01:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.582973
- Title: Conflict Adaptation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける衝突適応
- Authors: Xiaoyang Hu,
- Abstract要約: 人間の認知制御の象徴はコンフリクト適応(コンフリクト適応)である。
逐次Stroopタスクを用いて、13の視覚言語モデル(VLM)のうち12が競合適応と整合した振る舞いを示した。
この動作の表現的基盤を理解するために,InternVL 3.5 4Bにおけるタスク関連スーパーノードの同定にスパースオートエンコーダ(SAE)を用いる。
- 参考スコア(独自算出の注目度): 3.756550107432323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A signature of human cognitive control is conflict adaptation: improved performance on a high-conflict trial following another high-conflict trial. This phenomenon offers an account for how cognitive control, a scarce resource, is recruited. Using a sequential Stroop task, we find that 12 of 13 vision-language models (VLMs) tested exhibit behavior consistent with conflict adaptation, with the lone exception likely reflecting a ceiling effect. To understand the representational basis of this behavior, we use sparse autoencoders (SAEs) to identify task-relevant supernodes in InternVL 3.5 4B. Partially overlapping supernodes emerge for text and color in both early and late layers, and their relative sizes mirror the automaticity asymmetry between reading and color naming in humans. We further isolate a conflict-modulated supernode in layers 24-25 whose ablation significantly increases Stroop errors while minimally affecting congruent trials.
- Abstract(参考訳): 人間の認知制御の象徴はコンフリクト適応(コンフリクト適応)である。
この現象は、認知的制御(リソースの不足)がいかに採用されるかを説明する。
シーケンシャルなStroopタスクを用いて、13の視覚言語モデル(VLM)のうち12のモデルが競合適応と整合した振る舞いを示し、例外は天井効果を反映していることが判明した。
この動作の表現的基盤を理解するために,InternVL 3.5 4Bにおけるタスク関連スーパーノードの同定にスパースオートエンコーダ(SAE)を用いる。
部分的な重なり合うスーパーノードは、初期層と後期層の両方でテキストと色に現れ、相対的な大きさは、人間の読みと色命名の非対称性を反映している。
また,24-25層においてコンフリクト変調されたスーパーノードを分離し,アブレーションによりストループ誤差が著しく増大すると同時に,コングルート試験に最小限の影響を及ぼす。
関連論文リスト
- When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models [0.5461938536945722]
非顔オブジェクトにおける顔の知覚である顔パリドリアは、この行動の制御されたプローブを提供する。
本研究では,顔パレドリア画像における検出,局所化,不確実性,偏見,難易度,感情を解析する表現レベル診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T12:33:36Z) - Understanding the Dynamics of Demonstration Conflict in In-Context Learning [14.115388433771786]
インコンテキスト学習により、大規模な言語モデルでは、数発のデモで新しいタスクを実行できる。
我々は,ルール推論として特徴付けるプロセスである,基礎となるパターンを推論するモデルを必要とする実演依存タスクについて検討する。
モデルが1つのデモからかなり性能劣化に悩まされていることが分かりました。
論文 参考訳(メタデータ) (2026-03-03T20:00:33Z) - Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM [0.0]
以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。
Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。
我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
論文 参考訳(メタデータ) (2026-02-22T12:42:38Z) - Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning [78.86309644343295]
長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
論文 参考訳(メタデータ) (2026-02-16T07:10:44Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - Mitigating Spurious Negative Pairs for Robust Industrial Anomaly Detection [9.93548802132951]
敵攻撃に対する既存の検出手法の堅牢性は依然として課題であり、自律運転のような現実のアプリケーションにおいて信頼性を損なう。
本稿では,ADにおける対人訓練の理想的目的関数として,正規群から派生した擬似奇形群を提案する。
これらの結果から, 突発性負対が従来のコントラスト損失を損なうことにより, 頑健なADを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T07:32:39Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Fixed Inter-Neuron Covariability Induces Adversarial Robustness [26.878913741674058]
敵対的摂動の脆弱性はディープニューラルネットワーク(DNN)の重大な欠陥である
我々は,各ニューロンが固定された,しかし学習された共変性パターンに従うように,活性化が互いに一致したニューロンからなる自己持続活性化層を開発した。
SCA層を持つモデルは高い精度を達成し、対向的な摂動データでトレーニングされることなく、最先端のAuto-PGD攻撃に対して多層パーセプトロンモデルよりもはるかに堅牢性を示した。
論文 参考訳(メタデータ) (2023-08-07T23:46:14Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。