論文の概要: ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
- arxiv url: http://arxiv.org/abs/2511.20937v1
- Date: Wed, 26 Nov 2025 00:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.904225
- Title: ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
- Title(参考訳): ENACT:自己中心的相互作用の世界のモデリングによる身体的認知の評価
- Authors: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li,
- Abstract要約: 身体的認知は、知性は受動的観察よりも知覚的相互作用から生じると主張する。
我々は,エゴセントリックな相互作用から世界モデリングとしての認知の具体化を評価するベンチマークENACTを紹介する。
- 参考スコア(独自算出の注目度): 35.24704057622881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.
- Abstract(参考訳): 身体的認知は、知性は受動的観察よりも知覚的相互作用から生じると主張する。
現代の視覚言語モデル(VLM)は、主に非身体的な方法で訓練され、具体的認知の兆候を示すか?
本稿では,視覚的質問応答(VQA)形式における自我中心的相互作用から世界モデリングとしての認知の具体化を評価するベンチマークであるENACTを紹介する。
アクションがシーングラフの変化である部分観測可能なマルコフ決定プロセス(POMDP)として分離されたENACTは、フォワードワールドモデリング(与えられたアクションの順序変更)と逆ワールドモデリング(観察の順序変更)の2つの相補的な順序変更タスクから構成される。
概念的には単純であるが、これらのタスクを暗黙的に解くには、認識・認識・行動影響推論・認識の具体化、部分的に観察可能な自我中心の入力からの対話的・長期記憶などの機能を必要とする一方で、評価を妨害する可能性のある低レベル画像合成を避ける必要がある。
我々は、ロボットシミュレーション(BEHAVIOR)からQAペアを合成し、8,972対のQAペアを長時間の在宅活動にまたがるモデルを評価するスケーラブルなパイプラインを提供する。
実験により、フロンティアのVLMと人間の間には、相互作用の地平線で広がる性能のギャップが明らかになった。
モデルは、前者よりも逆タスクにおいて一貫して優れており、人間の視覚から逸脱したカメラの内在や視点において、右利きの行動や劣化を優先するなど、人間中心の偏見を示す。
ウェブサイト https://enact-embodied-cognition.github.io/.com
関連論文リスト
- ECHO: Ego-Centric modeling of Human-Object interactions [71.17118015822699]
ECHO (Ego-Centric Modeling of Human-Object Interaction) を開発した。
人間のポーズ、物体の動き、そしてそのような最小限の観察から接触の3つのモダリティを回復する。
同じ柔軟性を提供しない既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-08-29T12:12:22Z) - Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection [3.656114607436271]
人間オブジェクトの相互作用検出(Human-object Interaction Detection, HOID)とは、画像中の対話的な人間オブジェクトのペアをローカライズし、その相互作用を識別することである。
本研究では,Funnel-HOIというトップダウンフレームワークを構築した。
新規な非対称なコアテンション機構は、マルチモーダル情報(ゼロショット機能を含む)を利用してこれらのキューをマイニングし、エンコーダレベルでより強力な相互作用表現を生成する。
論文 参考訳(メタデータ) (2025-07-16T20:47:24Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - UniAR: A Unified model for predicting human Attention and Responses on visual content [12.281060227170792]
多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。
自然画像、Webページ、グラフィックデザインにまたがる様々な公開データセットに基づいてUniARをトレーニングし、複数のベンチマークでSOTA性能を達成する。
潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。