論文の概要: Do VLMs Have a Moral Backbone? A Study on the Fragile Morality of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.17082v1
- Date: Fri, 23 Jan 2026 06:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.211454
- Title: Do VLMs Have a Moral Backbone? A Study on the Fragile Morality of Vision-Language Models
- Title(参考訳): VLMはモラルバックボーンを持つか? : 視覚・言語モデルの断片的モラルに関する研究
- Authors: Zhining Liu, Tianyi Wang, Xiao Lin, Penghao Ouyang, Gaotang Li, Ze Yang, Hui Liu, Sumit Keswani, Vishwa Pardeshi, Huijun Zhao, Wei Fan, Hanghang Tong,
- Abstract要約: VLM(Vision-Language Models)が現実的な環境で安定しているかどうかは不明だ。
モデルに依存しない多モード摂動を用いてVLMを探索し、その道徳的姿勢が極めて脆弱であることを示す。
軽量な推論時間の介入は、部分的に道徳的安定性を回復できることを示す。
- 参考スコア(独自算出の注目度): 41.633874062439254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite substantial efforts toward improving the moral alignment of Vision-Language Models (VLMs), it remains unclear whether their ethical judgments are stable in realistic settings. This work studies moral robustness in VLMs, defined as the ability to preserve moral judgments under textual and visual perturbations that do not alter the underlying moral context. We systematically probe VLMs with a diverse set of model-agnostic multimodal perturbations and find that their moral stances are highly fragile, frequently flipping under simple manipulations. Our analysis reveals systematic vulnerabilities across perturbation types, moral domains, and model scales, including a sycophancy trade-off where stronger instruction-following models are more susceptible to persuasion. We further show that lightweight inference-time interventions can partially restore moral stability. These results demonstrate that moral alignment alone is insufficient and that moral robustness is a necessary criterion for the responsible deployment of VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)の道徳的アライメントを改善するためのかなりの努力にもかかわらず、彼らの倫理的判断が現実的な環境で安定しているかどうかは不明である。
この研究は、VLMにおける道徳的堅牢性について研究し、基礎となる道徳的文脈を変えないテキスト的および視覚的摂動の下で道徳的判断を維持する能力として定義されている。
モデルに依存しない多モード摂動を用いてVLMを系統的に探索し、その道徳的姿勢が極めて脆弱であり、単純な操作でしばしば反転することがわかった。
我々の分析は、摂動タイプ、モラルドメイン、モデルスケールにまたがる系統的な脆弱性を明らかにし、より強い命令追従モデルの方が説得に敏感なサイコフィナンシートレードオフを含む。
さらに、軽量な推論時間の介入は、部分的に道徳的安定性を回復できることを示す。
これらの結果は、モラルアライメントだけでは不十分であり、モラルロバスト性はVLMの責任ある展開に必要な基準であることを示している。
関連論文リスト
- Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。
我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。
大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T15:22:21Z) - Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.14963505712040906]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。