論文の概要: Moral Sycophancy in Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.08311v1
- Date: Mon, 09 Feb 2026 06:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.089293
- Title: Moral Sycophancy in Vision Language Models
- Title(参考訳): 視覚言語モデルにおけるモラル・サイコファシー
- Authors: Shadman Rabby, Md. Hefzul Hossain Papon, Sabbir Ahmed, Nokimul Hasan Arif, A. B. M. Ashikur Rahman, Irfan Ahmad,
- Abstract要約: VLM(Vycophancy in Vision-Language Models)は、しばしば道徳的または事実的正確さを犠牲にして、ユーザの意見に合わせる傾向を示す。
明示的なユーザ不一致の下で,MoraliseおよびM3oralBenchデータセット上で広く使用されている10のモデルを分析する。
- 参考スコア(独自算出の注目度): 4.1673509006222655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophancy in Vision-Language Models (VLMs) refers to their tendency to align with user opinions, often at the expense of moral or factual accuracy. While prior studies have explored sycophantic behavior in general contexts, its impact on morally grounded visual decision-making remains insufficiently understood. To address this gap, we present the first systematic study of moral sycophancy in VLMs, analyzing ten widely-used models on the Moralise and M^3oralBench datasets under explicit user disagreement. Our results reveal that VLMs frequently produce morally incorrect follow-up responses even when their initial judgments are correct, and exhibit a consistent asymmetry: models are more likely to shift from morally right to morally wrong judgments than the reverse when exposed to user-induced bias. Follow-up prompts generally degrade performance on Moralise, while yielding mixed or even improved accuracy on M^3oralBench, highlighting dataset-dependent differences in moral robustness. Evaluation using Error Introduction Rate (EIR) and Error Correction Rate (ECR) reveals a clear trade-off: models with stronger error-correction capabilities tend to introduce more reasoning errors, whereas more conservative models minimize errors but exhibit limited ability to self-correct. Finally, initial contexts with a morally right stance elicit stronger sycophantic behavior, emphasizing the vulnerability of VLMs to moral influence and the need for principled strategies to improve ethical consistency and robustness in multimodal AI systems.
- Abstract(参考訳): VLM(Vycophancy in Vision-Language Models)は、しばしば道徳的または事実的正確さを犠牲にして、ユーザの意見に合わせる傾向を示す。
以前の研究では、一般の文脈でサイコファンティックな振る舞いを探求してきたが、道徳的に根ざした視覚的意思決定への影響は、まだ十分に理解されていない。
このギャップに対処するために、VLMにおける道徳的梅毒に関する最初の体系的研究を行い、明示的なユーザ不一致の下で、MoraliseとM^3oralBenchデータセット上の10の広く使われているモデルを解析した。
以上の結果から,VLMは初期判断が正しい場合でも,道徳的に不適切なフォローアップ応答をしばしば生成し,一貫した非対称性を示すことが明らかとなった。
フォローアップのプロンプトは、M^3oralBench上での混合または改善された精度を保ち、モラルのロバスト性におけるデータセット依存的な差異を強調しながら、一般的にモラーリゼのパフォーマンスを低下させる。
EIR(Error Introduction Rate)とECR(Error Correction Rate)を用いた評価では、明確なトレードオフが明らかである。
最後に、道徳的に正しいスタンスを持つ最初の文脈は、より強いシコファン的行動を引き起こし、VLMの道徳的影響に対する脆弱性を強調し、マルチモーダルAIシステムにおける倫理的一貫性と堅牢性を改善するための原則化された戦略の必要性を強調している。
関連論文リスト
- MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment [48.39756797294967]
本稿では、視覚言語モデルと人間の道徳的嗜好を整合させるデータセットMM-SCALEを提案する。
それぞれのイメージ・シナリオペアには、道徳的受容性スコアと、人間による根拠付き推論ラベルが注釈付けされている。
我々のフレームワークは、よりリッチなアライメント信号とマルチモーダルな道徳的推論のキャリブレーションを提供する。
論文 参考訳(メタデータ) (2026-02-03T15:48:00Z) - Do VLMs Have a Moral Backbone? A Study on the Fragile Morality of Vision-Language Models [41.633874062439254]
VLM(Vision-Language Models)が現実的な環境で安定しているかどうかは不明だ。
モデルに依存しない多モード摂動を用いてVLMを探索し、その道徳的姿勢が極めて脆弱であることを示す。
軽量な推論時間の介入は、部分的に道徳的安定性を回復できることを示す。
論文 参考訳(メタデータ) (2026-01-23T06:00:09Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - The Moral Gap of Large Language Models [1.568356637037272]
道徳的基盤検出は、社会的言論を分析し、倫理的に整合したAIシステムの開発に不可欠である。
この研究は、ROC、PR、DET曲線解析を用いて、TwitterとRedditのデータセットにまたがる最先端のLSMと微調整されたトランスフォーマーの包括的な比較を初めて提供する。
LLMは高い偽陰性率を示し, 迅速な工学的努力にもかかわらず, 道徳的内容の体系的過小判定を行う。
論文 参考訳(メタデータ) (2025-07-24T15:49:06Z) - Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。
我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。
大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T15:22:21Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。