論文の概要: Social Norm Reasoning in Multimodal Language Models: An Evaluation
- arxiv url: http://arxiv.org/abs/2603.03590v1
- Date: Tue, 03 Mar 2026 23:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.12708
- Title: Social Norm Reasoning in Multimodal Language Models: An Evaluation
- Title(参考訳): マルチモーダル言語モデルにおける社会的ノルム推論 : 評価
- Authors: Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、ロボットが標準を識別し、推論するために使用するソフトウェアを開発するための有望な可能性を示す。
本稿では,30のテキスト・ストーリーと30のイメージ・ベース・ストーリーに基づく規範的質問に対する回答能力を評価することで,5つのMLLMの規範的推論能力について検討する。
その結果,MLLMは画像よりもテキストのノルム推論において優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.8181983928344693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Multi-Agent Systems (MAS), agents are designed with social capabilities, allowing them to understand and reason about social concepts such as norms when interacting with others (e.g., inter-robot interactions). In Normative MAS (NorMAS), researchers study how norms develop, and how violations are detected and sanctioned. However, existing research in NorMAS use symbolic approaches (e.g., formal logic) for norm representation and reasoning whose application is limited to simplified environments. In contrast, Multimodal Large Language Models (MLLMs) present promising possibilities to develop software used by robots to identify and reason about norms in a wide variety of complex social situations embodied in text and images. However, prior work on norm reasoning have been limited to text-based scenarios. This paper investigates the norm reasoning competence of five MLLMs by evaluating their ability to answer norm-related questions based on thirty text-based and thirty image-based stories, and comparing their responses against humans. Our results show that MLLMs demonstrate superior performance in norm reasoning in text than in images. GPT-4o performs the best in both modalities offering the most promise for integration with MAS, followed by the free model Qwen-2.5VL. Additionally, all models find reasoning about complex norms challenging.
- Abstract(参考訳): マルチエージェントシステム(英: Multi-Agent Systems、MAS)は、エージェントが他者と対話する際の規範(例えばロボット間相互作用)のような社会的概念を理解し、推論できるように、社会的能力を持つように設計されている。
Normative MAS (NorMAS) では、研究者はノルムがどのように発達し、違反が検出され、認可されるかを研究する。
しかし、NorMASの既存の研究は、標準的な表現や推論にシンボリックアプローチ(例:形式論理)を使用しており、その応用は単純化された環境に限られている。
対照的に、MLLM(Multimodal Large Language Models)は、テキストや画像に具現化された様々な複雑な社会状況において、ロボットが規範を特定し、推論するために使用するソフトウェアを開発する可能性を示す。
しかし、ノルム推論の以前の研究はテキストベースのシナリオに限られていた。
本稿では,30件のテキストと30件のイメージに基づく質問に対して,その回答を人間と比較することにより,5件のMLLMの規範推論能力を評価する。
その結果,MLLMは画像よりもテキストのノルム推論において優れた性能を示した。
GPT-4oは、MASとの統合を最も約束するモダリティと、Qwen-2.5VLというフリーモデルの両方で最高の性能を発揮する。
さらに、すべてのモデルは複雑なノルムの推論に挑戦する。
関連論文リスト
- Where Norms and References Collide: Evaluating LLMs on Normative Reasoning [3.8431932182760296]
ロボットのような身体的エージェントは、コミュニケーションの成功が社会的規範の推論に依存することが多い場所にいる環境で対話する必要がある。
大規模な言語モデル(LLM)がこのような推論をサポートできるかどうかは不明だ。
SNIC(Situated Norms in Context)は,最先端のLCMがNBRRに関連する規範的原則をいかに抽出し,活用できるかを探索する,有能な診断テストベッドである。
論文 参考訳(メタデータ) (2026-02-03T01:23:22Z) - Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives [5.120890045747202]
論理的, モーダル的両面から, 規範的領域における大言語モデルの推論能力を評価する。
以上の結果から, LLMは一般的に妥当な推論パターンに従属するが, 特定の規範的推論において顕著な矛盾が認められた。
論文 参考訳(メタデータ) (2025-10-30T15:35:13Z) - MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI [59.196131618912005]
マルチモーダル大規模言語モデル(MLLM)の進展における推論の役割
既存のMLLMベンチマークは、しばしば、長鎖推論能力の正確かつ包括的な評価において不足している。
MLLM長鎖推論能力を正確かつ包括的に評価する新しいベンチマークであるMMReasonを紹介する。
論文 参考訳(メタデータ) (2025-06-30T07:14:38Z) - On Path to Multimodal Generalist: General-Level and General-Bench [153.9720740167528]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。
フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。
既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (2025-05-07T17:59:32Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Normative Requirements Operationalization with Large Language Models [3.456725053685842]
規範的な非機能要件は、社会的、法的、倫理的、共感的、文化的規範の違反を避けるために、システムが観察しなければならない制約を規定する。
近年の研究では、規範的要件を特定するためにドメイン固有言語を使用してこの問題に対処している。
本稿では,システム機能の抽象表現間の意味的関係を抽出するために,大規模言語モデルを用いた補完的アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-18T17:01:34Z) - Harnessing the power of LLMs for normative reasoning in MASs [3.1796285054362605]
大きな言語モデル(LLM)は、標準に対してリッチで表現力豊かな語彙を提供する。
LLMはノルム発見、規範的推論、意思決定といった様々なタスクを実行できる。
本研究の目的は,MAS,NLP,LLM研究者の協力を得て,規範的エージェントの分野を推し進めることである。
論文 参考訳(メタデータ) (2024-03-25T08:09:01Z) - Emergence of Social Norms in Generative Agent Societies: Principles and Architecture [8.094425852451643]
生成型MASにおける社会的規範の出現を促進するために,CRSECという新しいアーキテクチャを提案する。
私たちのアーキテクチャは、創造と表現、スプレッド、評価、コンプライアンスの4つのモジュールで構成されています。
本実験は,生産型MASにおける社会的規範の確立と社会的対立の低減を図ったものである。
論文 参考訳(メタデータ) (2024-03-13T05:08:10Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。