論文の概要: Evaluating point-light biological motion in multimodal large language models
- arxiv url: http://arxiv.org/abs/2509.23517v1
- Date: Sat, 27 Sep 2025 22:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.270814
- Title: Evaluating point-light biological motion in multimodal large language models
- Title(参考訳): 多モーダル大言語モデルにおける点光生物運動の評価
- Authors: Akila Kadambi, Marco Iacoboni, Lisa Aziz-Zadeh, Srini Narayanan,
- Abstract要約: 点灯ディスプレイ(PLD)が示すように、人間は最小限の視覚的手がかりから情報を抽出する
本稿では,人間のPLDからMLLMのアクション処理を評価する最初のベンチマークであるActPLDを紹介する。
- 参考スコア(独自算出の注目度): 1.2205357619423551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can extract rich semantic information from minimal visual cues, as demonstrated by point-light displays (PLDs), which consist of sparse sets of dots localized to key joints of the human body. This ability emerges early in development and is largely attributed to human embodied experience. Since PLDs isolate body motion as the sole source of meaning, they represent key stimuli for testing the constraints of action understanding in these systems. Here we introduce ActPLD, the first benchmark to evaluate action processing in MLLMs from human PLDs. Tested models include state-of-the-art proprietary and open-source systems on single-actor and socially interacting PLDs. Our results reveal consistently low performance across models, introducing fundamental gaps in action and spatiotemporal understanding.
- Abstract(参考訳): 人間は最小限の視覚的手がかりから豊かな意味情報を抽出することができ、人間の身体のキージョイントに局所化される小さな点からなる点光ディスプレイ(PLD)で示される。
この能力は発達初期に出現し、主に人間の体現経験によるものである。
PLDは身体の動きを唯一の意味の源として分離するため、これらのシステムにおける行動理解の制約をテストする上で重要な刺激となる。
本稿では,人間のPLDからMLLMのアクション処理を評価する最初のベンチマークであるActPLDを紹介する。
テストされたモデルには、単一のアクターと社会的に相互作用するPLD上の最先端のプロプライエタリおよびオープンソースシステムが含まれる。
この結果から, モデル間の性能は一貫して低下し, 動作の基本的なギャップと時空間的理解が導入された。
関連論文リスト
- Large Language Models Show Signs of Alignment with Human Neurocognition During Abstract Reasoning [0.0]
本研究では,大言語モデル(LLM)が抽象的推論中に人間の神経認知を反映するかどうかを検討する。
我々は,抽象パターン補完タスクにおいて,人体の性能と神経表現を8つのオープンソースLCMと比較した。
論文 参考訳(メタデータ) (2025-08-12T21:38:46Z) - Can Large Models Fool the Eye? A New Turing Test for Biological Animation [38.24758662565375]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)を視覚的アニメーションで評価するための新しいフレームワークであるBioMotion Arenaを紹介する。
本手法は,生物特有の運動パターンの視覚的知覚からインスピレーションを得ている。
我々は,90の生物運動変種に対して,ペアワイズ比較評価を用い,53のメインストリームLLMとMLLMの45k以上を収集した。
論文 参考訳(メタデータ) (2025-08-08T07:10:17Z) - How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction? [9.094835948226063]
ジェスチャーは、アジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。
従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。
Vision Foundation Models (VFMs) と Vision Language Models (VLMs) は、その強力な一般化能力によって、システムの複雑さを減らす可能性がある。
本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベース)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。
論文 参考訳(メタデータ) (2025-06-25T19:36:45Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。