論文の概要: MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models
- arxiv url: http://arxiv.org/abs/2505.14728v1
- Date: Tue, 20 May 2025 01:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.657877
- Title: MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models
- Title(参考訳): MORALISE:ビジュアル言語モデルにおけるモラルアライメントのための構造化ベンチマーク
- Authors: Xiao Lin, Zhining Liu, Ze Yang, Gaotang Li, Ruizhong Qiu, Shuke Wang, Hui Liu, Haotian Li, Sumit Keswani, Vishwa Pardeshi, Huijun Zhao, Wei Fan, Hanghang Tong,
- Abstract要約: 視覚言語モデルは、自律運転や医療分析のような道徳的に敏感な領域に影響を与えている。
我々は,多種多様な専門家による実世界のデータを用いて,視覚言語モデルのモラルアライメントを評価するベンチマークMORALISEを紹介する。
- 参考スコア(独自算出の注目度): 38.0475868976819
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Warning: This paper contains examples of harmful language and images. Reader discretion is advised. Recently, vision-language models have demonstrated increasing influence in morally sensitive domains such as autonomous driving and medical analysis, owing to their powerful multimodal reasoning capabilities. As these models are deployed in high-stakes real-world applications, it is of paramount importance to ensure that their outputs align with human moral values and remain within moral boundaries. However, existing work on moral alignment either focuses solely on textual modalities or relies heavily on AI-generated images, leading to distributional biases and reduced realism. To overcome these limitations, we introduce MORALISE, a comprehensive benchmark for evaluating the moral alignment of vision-language models (VLMs) using diverse, expert-verified real-world data. We begin by proposing a comprehensive taxonomy of 13 moral topics grounded in Turiel's Domain Theory, spanning the personal, interpersonal, and societal moral domains encountered in everyday life. Built on this framework, we manually curate 2,481 high-quality image-text pairs, each annotated with two fine-grained labels: (1) topic annotation, identifying the violated moral topic(s), and (2) modality annotation, indicating whether the violation arises from the image or the text. For evaluation, we encompass two tasks, \textit{moral judgment} and \textit{moral norm attribution}, to assess models' awareness of moral violations and their reasoning ability on morally salient content. Extensive experiments on 19 popular open- and closed-source VLMs show that MORALISE poses a significant challenge, revealing persistent moral limitations in current state-of-the-art models. The full benchmark is publicly available at https://huggingface.co/datasets/Ze1025/MORALISE.
- Abstract(参考訳): 警告: この論文は有害な言語と画像の例を含む。
読者の判断は推奨される。
近年、視覚言語モデルは、その強力なマルチモーダル推論能力により、自律運転や医療分析などの道徳的に敏感な領域に影響を及ぼす傾向にある。
これらのモデルは現実世界の高度な応用に展開されているため、アウトプットが人間の道徳的価値観と一致し、道徳的境界内に留まることを保証することが最重要である。
しかし、モラルアライメントに関する既存の研究は、テキストのモダリティにのみフォーカスするか、AI生成画像に大きく依存しているため、分布バイアスや現実主義の減少につながる。
これらの制約を克服するために,多種多様な専門家による実世界のデータを用いて視覚言語モデル(VLM)のモラルアライメントを評価するための総合ベンチマークMORALISEを紹介する。
まず、トゥリエルの領域論に根ざした13の道徳的トピックを包括的に分類し、日常生活で遭遇する個人的、対人的、社会的道徳的ドメインを包括的に分類することから始める。
本フレームワーク上に構築した2,481の高品質な画像テキストペアに対して,(1)トピックアノテーション,違反したモラルトピックの識別,(2)モダリティアノテーションの2つの微粒なラベルをアノテートする。
評価には,道徳的違反に対するモデルによる認識と,道徳的に健全な内容に対する推論能力を評価するために,<textit{moral judgment} と \textit{moral norm attribution} という2つのタスクを包含する。
19の人気のあるオープンソースおよびクローズドソース VLM に関する大規模な実験は、MORALISE が現在最先端のモデルに永続的な道徳的制限を課していることを示している。
全ベンチマークはhttps://huggingface.co/datasets/Ze1025/MORALISEで公開されている。
関連論文リスト
- Visual moral inference and communication [4.5013963602617455]
本稿では,自然画像からの道徳的推論を支援する計算フレームワークを提案する。
テキストのみに基づくモデルでは、視覚刺激に対する人間の道徳的判断のきめ細やかな把握ができないことがわかった。
我々の研究は、視覚的道徳的推論を自動化し、公共メディアにおける視覚的道徳的コミュニケーションのパターンを発見するための道を開いた。
論文 参考訳(メタデータ) (2025-04-12T00:46:27Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - The Moral Foundations Weibo Corpus [0.0]
道徳的な感情は、オンライン環境とオフライン環境の両方に影響し、行動スタイルと相互作用パターンを形成する。
既存のコーパスは価値はあるものの、しばしば言語的な制限に直面している。
このコーパスは、Weiboに関する25,671の中国語のコメントで構成され、6つの多様な話題領域を含んでいる。
論文 参考訳(メタデータ) (2024-11-14T17:32:03Z) - MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions [4.747987317906765]
道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。
自然言語処理(NLP)の最近の進歩は、人文コンテンツにおいて道徳的価値を測ることができることを示している。
本稿では、社会談話における道徳的感情を捉えるために微調整された言語表現モデルであるMoralBERTを紹介する。
論文 参考訳(メタデータ) (2024-03-12T14:12:59Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Zero-shot Visual Commonsense Immorality Prediction [8.143750358586072]
道徳的AIシステムへの1つの方法は、人間の社会的行動の模倣と、システムにおけるある種の良い行動を促進することである。
本稿では,視覚的コモンセンスの不道徳をゼロショットで予測するモデルを提案する。
我々は,既存の道徳的・不道徳的なイメージデータセットを用いてモデルを評価し,人間の直観と一致した公正な予測性能を示す。
論文 参考訳(メタデータ) (2022-11-10T12:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。