論文の概要: Visual Distraction Undermines Moral Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.16445v1
- Date: Tue, 17 Mar 2026 12:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.270848
- Title: Visual Distraction Undermines Moral Reasoning in Vision-Language Models
- Title(参考訳): 視覚障害は視覚・言語モデルにおける道徳的推論を損なう
- Authors: Xinyi Yang, Chenheng Xu, Weijun Hong, Ce Mo, Qian Wang, Fang Fang, Yixin Zhu,
- Abstract要約: 我々は、最先端(SOTA)ビジョンランゲージモデル(VLM)における視覚入力が道徳的意思決定を根本的に変えることを示した。
モーラル基礎理論(MFT)に基づくマルチモーダルベンチマークであるモーラルジレンマシミュレーション(MDS)を紹介する。
評価の結果、視覚のモダリティは、テキストのみの文脈で観察されるより意図的で安全な推論パターンをオーバーライドする直観的な経路を活性化することが明らかとなった。
- 参考スコア(独自算出の注目度): 12.469839628520257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moral reasoning is fundamental to safe Artificial Intelligence (AI), yet ensuring its consistency across modalities becomes critical as AI systems evolve from text-based assistants to embodied agents. Current safety techniques demonstrate success in textual contexts, but concerns remain about generalization to visual inputs. Existing moral evaluation benchmarks rely on textonly formats and lack systematic control over variables that influence moral decision-making. Here we show that visual inputs fundamentally alter moral decision-making in state-of-the-art (SOTA) Vision-Language Models (VLMs), bypassing text-based safety mechanisms. We introduce Moral Dilemma Simulation (MDS), a multimodal benchmark grounded in Moral Foundation Theory (MFT) that enables mechanistic analysis through orthogonal manipulation of visual and contextual variables. The evaluation reveals that the vision modality activates intuition-like pathways that override the more deliberate and safer reasoning patterns observed in text-only contexts. These findings expose critical fragilities where language-tuned safety filters fail to constrain visual processing, demonstrating the urgent need for multimodal safety alignment.
- Abstract(参考訳): モラル推論は、安全な人工知能(AI)の基本であるが、AIシステムがテキストベースのアシスタントからエンボディエージェントへと進化するにつれて、モダリティ間の一貫性を確保することが重要になる。
現在の安全技術はテキストの文脈で成功を示すが、視覚入力への一般化に関する懸念は残る。
既存のモラル評価ベンチマークはテキストのみのフォーマットに依存しており、モラル決定に影響を及ぼす変数の体系的な制御が欠如している。
ここでは、テキストベースの安全性メカニズムを回避し、現状のSOTA(Vision-Language Models)における道徳的意思決定を根本的に変えることを示す。
モーラル基礎理論(MFT)に基づくマルチモーダルベンチマークであるモーラルジレンマシミュレーション(MDS)を導入し,視覚変数と文脈変数の直交操作による力学解析を可能にする。
評価の結果、視覚のモダリティは、テキストのみの文脈で観察されるより意図的で安全な推論パターンをオーバーライドする直観的な経路を活性化することが明らかとなった。
これらの結果から,言語調整型安全フィルタが視覚処理の制約に失敗し,マルチモーダルな安全アライメントの必要性が示唆された。
関連論文リスト
- VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models [38.0475868976819]
視覚言語モデルは、自律運転や医療分析のような道徳的に敏感な領域に影響を与えている。
我々は,多種多様な専門家による実世界のデータを用いて,視覚言語モデルのモラルアライメントを評価するベンチマークMORALISEを紹介する。
論文 参考訳(メタデータ) (2025-05-20T01:11:17Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models [72.75669790569629]
LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。
既存の視覚言語アライメント手法では,LLMにおけるテキストの安全性機構を視覚に転送できないことがわかった。
LVLMのための新しいテキストガイド型視覚言語アライメント法(TGA)を提案する。
論文 参考訳(メタデータ) (2024-10-16T15:20:08Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Contextualized moral inference [12.574316678945195]
本稿では,道徳的ヴィグネットの直感的な判断をテキストベースで予測する手法を提案する。
文脈化された表現は、代替表現よりもかなり有利であることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。