論文の概要: VIVA+: Human-Centered Situational Decision-Making
- arxiv url: http://arxiv.org/abs/2509.23698v1
- Date: Sun, 28 Sep 2025 07:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.385462
- Title: VIVA+: Human-Centered Situational Decision-Making
- Title(参考訳): VIVA+:人間中心の状況意思決定
- Authors: Zhe Hu, Yixiao Ren, Guanzhong Liu, Jing Li, Yu Yin,
- Abstract要約: 本研究では,人間中心の状況下でのMLLMの推論と意思決定のベンチマークであるVIVA+を紹介する。
Vila+は1,317の現実世界の状況と6,373の複数の質問を組み合わせ、意思決定のコアとなる3つの能力をターゲットにしている。
最新の商用およびオープンソースモデルをVIVA+で評価し、異なるパフォーマンスパターンを明らかにし、重要な課題を浮き彫りにする。
- 参考スコア(独自算出の注目度): 9.67738226553979
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) show promising results for embodied agents in operating meaningfully in complex, human-centered environments. Yet, evaluating their capacity for nuanced, human-like reasoning and decision-making remains challenging. In this work, we introduce VIVA+, a cognitively grounded benchmark for evaluating the reasoning and decision-making of MLLMs in human-centered situations. VIVA+ consists of 1,317 real-world situations paired with 6,373 multiple-choice questions, targeting three core abilities for decision-making: (1) Foundational Situation Comprehension, (2) Context-Driven Action Justification, and (3) Reflective Reasoning. Together, these dimensions provide a systematic framework for assessing a model's ability to perceive, reason, and act in socially meaningful ways. We evaluate the latest commercial and open-source models on VIVA+, where we reveal distinct performance patterns and highlight significant challenges. We further explore targeted training and multi-step reasoning strategies, which yield consistent performance improvements. Finally, our in-depth analysis highlights current model limitations and provides actionable insights for advancing MLLMs toward more robust, context-aware, and socially adept decision-making in real-world settings.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑で人間中心の環境で意味のある操作を行うエージェントに対して有望な結果を示す。
しかし、人間らしい推論と意思決定の能力を評価することは依然として困難である。
本研究では,人間中心の状況下でのMLLMの推論と意思決定を評価するための,認知基盤のベンチマークであるVIVA+を紹介する。
VIVA+は1,317件の現実世界の状況と6,373件の複数質問を組み合わせて構成され,(1)基本的状況理解,(2)文脈駆動的行動正当化,(3)反射的推論という3つの中核的な意思決定能力をターゲットにしている。
これらの次元は、モデルが社会的に意味のある方法で知覚し、理性し、行動する能力を評価するための体系的な枠組みを提供する。
最新の商用およびオープンソースモデルをVIVA+で評価し、異なるパフォーマンスパターンを明らかにし、重要な課題を浮き彫りにする。
さらに、目標とするトレーニングとマルチステップ推論戦略についても検討し、一貫したパフォーマンス改善を実現しています。
最後に、我々の詳細な分析は、現在のモデル制限を強調し、MLLMをより堅牢で、コンテキストに適応し、現実の環境で社会的に適応的な意思決定に向けて、実用的な洞察を提供する。
関連論文リスト
- How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - Modeling Beyond MOS: Quality Assessment Models Must Integrate Context, Reasoning, and Multimodality [45.34252727738116]
平均オピニオンスコア(MOS)は、もはやマルチメディア品質評価モデルのための唯一の監督信号として不十分である。
品質評価を文脈的、説明可能、マルチモーダルなモデリングタスクとして再定義することで、より堅牢で、人間らしく、信頼性の高い評価システムへのシフトを触媒することを目指している。
論文 参考訳(メタデータ) (2025-05-26T08:52:02Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - VIVA: A Benchmark for Vision-Grounded Decision-Making with Human Values [14.094823787048592]
大規模視覚言語モデル(VLM)は、日常生活への統合に大きな可能性を示している。
本稿では,人間のVAluによって駆動されるVsion-grounded decision-makingのベンチマークであるVIVAを紹介する。
論文 参考訳(メタデータ) (2024-07-03T10:59:06Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。