論文の概要: Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.12119v1
- Date: Mon, 13 Apr 2026 22:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.153133
- Title: Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models
- Title(参考訳): 知覚誤差を超えて:大規模視覚言語モデルにおける意味的固定
- Authors: Md Tanvirul Alam,
- Abstract要約: 大規模な視覚言語モデル(VLM)はよく親しみやすいセマンティックな先行概念に依存するが、既存の評価は、認識障害とルールマッピングの失敗を明確に区別するものではない。
我々は,この動作を意味的固定として検討する。プロンプトが代替の等しく有効なマッピングを指定した場合でも,デフォルトの解釈を保存する。
14個のオープンかつクローズドなVLMに対して、精度は常に標準ルールを好んでおり、ロバストなセマンティック固定ギャップが明らかになっている。
- 参考スコア(独自算出の注目度): 1.7767466724342065
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large vision-language models (VLMs) often rely on familiar semantic priors, but existing evaluations do not cleanly separate perception failures from rule-mapping failures. We study this behavior as semantic fixation: preserving a default interpretation even when the prompt specifies an alternative, equally valid mapping. To isolate this effect, we introduce VLM-Fix, a controlled benchmark over four abstract strategy games that evaluates identical terminal board states under paired standard and inverse rule formulations. Across 14 open and closed VLMs, accuracy consistently favors standard rules, revealing a robust semantic-fixation gap. Prompt interventions support this mechanism: neutral alias prompts substantially narrow the inverse-rule gap, while semantically loaded aliases reopen it. Post-training is strongly rule-aligned: training on one rule improves same-rule transfer but hurts opposite-rule transfer, while joint-rule training improves broader transfer. To test external validity beyond synthetic games, we evaluate analogous defamiliarization interventions on VLMBias and observe the same qualitative pattern. Finally, late-layer activation steering partially recovers degraded performance, indicating that semantic-fixation errors are at least partly editable in late representations. Project page, code, and dataset available at https://maveryn.github.io/vlm-fix/.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)はよく親しみやすいセマンティックな先行概念に依存するが、既存の評価は、認識障害とルールマッピングの失敗を明確に区別するものではない。
我々は,この動作を意味的固定として検討する。プロンプトが代替の等しく有効なマッピングを指定した場合でも,デフォルトの解釈を保存する。
この効果を分離するために、VLM-Fixという4つの抽象戦略ゲーム上の制御されたベンチマークを導入し、ペア化された標準および逆ルールの定式化の下で同一の端末ボード状態を評価する。
14個のオープンかつクローズドなVLMに対して、精度は常に標準ルールを好んでおり、ロバストなセマンティック固定ギャップが明らかになっている。
ニュートラルエイリアスは逆ルールギャップを著しく狭め、セマンティックにロードされたエイリアスを再開する。
1つのルールでのトレーニングは同一ルールの転送を改善するが、反対ルールの転送を損なう一方、共同ルールのトレーニングはより広範な転送を改善する。
合成ゲーム以外の外的妥当性を検証するため,VLMBiaに対する類似の相似不明瞭化介入を評価し,同じ定性的パターンを観察する。
最後に、後期層のアクティベーションステアリングは、部分的に劣化した性能を回復し、少なくとも後期表現では、セマンティック固定エラーが部分的に編集可能であることを示す。
プロジェクトページ、コード、データセットはhttps://maveryn.github.io/vlm-fix/.comで公開されている。
関連論文リスト
- LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models [15.955490895662384]
本稿では,言語一般化の詳細な解析のためのベンチマークであるLIBERO-Paraを紹介する。
パラフレージングにより22-52ppの連続的な性能劣化が観察された。
本稿では,意味的因子と構文的因子を用いてパラフレーズの難易度を定量化する指標PRIDEを提案する。
論文 参考訳(メタデータ) (2026-03-30T11:27:34Z) - VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer [18.348454274148185]
ゼロショット異常検出(ZSAD)では、ターゲットクラスの異常サンプルにアクセスせずに異常を検出し、位置を特定する必要がある。
この作業は、ZSADのテキストブランチの必要性を再考し、ビジョントランスフォーマー上に構築された純粋に視覚的なフレームワークであるVisualADを提示する。
VisualADは、産業ドメインと医療ドメインにまたがる13のゼロショット異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-09T04:33:56Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - Explaining Time Series Classifiers with PHAR: Rule Extraction and Fusion from Post-hoc Attributions [7.51289645756884]
PHARは、数値的特徴属性を構造化された可読性ルールに変換するフレームワークである。
専用ルール融合ステップは、重み付け選択やラッソベースの精錬のような戦略を用いてルールセットを統合する。
UCR/UEA時系列分類アーカイブの実験は、PHARがTS分類タスクの解釈可能性、決定透明性、実用的な適用性を改善することを実証している。
論文 参考訳(メタデータ) (2025-08-03T09:45:40Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - ADEPT: A DEbiasing PrompT Framework [64.54665501064659]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。