論文の概要: While recognizing actions, LMMs struggle to detect core interaction events
- arxiv url: http://arxiv.org/abs/2511.20162v1
- Date: Tue, 25 Nov 2025 10:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.40756
- Title: While recognizing actions, LMMs struggle to detect core interaction events
- Title(参考訳): 行動を認識する中、LMMはコアインタラクションイベントを検出するのに苦労する
- Authors: Daniel Harari, Michael Sidorov, Liel David, Chen Shterental, Abrham Kahsay Gebreselasie, Muhammad Haris Khan,
- Abstract要約: 我々は,Sone-Something-V2データセットの動画に20K以上の注釈付きインタラクションを備えた,この種の大規模データセットを紹介した。
AMTurk Human Annotator 250は、中核的な相互作用イベント、特に、いつ、どこでオブジェクトやエージェントがアタッチされるかをラベル付けした。
モデルは、ターゲットオブジェクトを確実に命名し、アクションを識別し、一貫性のある推論を提供するが、相互作用が開始または終了するフレームを常に識別できないことを示す。
- 参考スコア(独自算出の注目度): 18.828641379675243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multi-modal models (LMMs) show increasing performance in realistic visual tasks for images and, more recently, for videos. For example, given a video sequence, such models are able to describe in detail objects, the surroundings and dynamic actions. In this study, we explored the extent to which these models ground their semantic understanding in the actual visual input. Specifically, given sequences of hands interacting with objects, we asked models when and where the interaction begins or ends. For this purpose, we introduce a first of its kind, large-scale dataset with more than 20K annotated interactions on videos from the Something-Something-V2 dataset. 250 AMTurk human annotators labeled core interaction events, particularly when and where objects and agents become attached ('contact') or detached ('release'). We asked two LMMs (Qwen-2.5VL and GPT-4o) to locate these events in short videos, each with a single event. The results show that although the models can reliably name the target objects, identify the action and provide coherent reasoning, they consistently fail to identify the frame where the interaction begins or ends and cannot localize the event within the scene. Our findings suggest that in struggling to pinpoint the moment and location of physical contact that defines the interaction, the models lack the perceptual grounding required for deeper understanding of dynamic scenes.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、画像や最近ではビデオのリアルな視覚的タスクのパフォーマンスが向上している。
例えば、ビデオシーケンスが与えられた場合、そのようなモデルは詳細なオブジェクト、周囲、動的アクションを記述できる。
本研究では,これらのモデルが実際の視覚入力における意味的理解の基盤となる範囲について検討した。
具体的には、オブジェクトと相互作用する手のシーケンスが与えられたら、いつ、どこで相互作用が始まるのか、どこで終わるのかをモデルに尋ねました。
そこで本研究では,Something-V2 データセットの動画に 20K 以上のアノテートを付加した,この種の大規模データセットについて紹介する。
AMTurk Human Annotator 250 AMTurk Human Annotatorは、中核的な相互作用イベント、特に、オブジェクトやエージェントが付着した場所("contact")や離着陸した場所("release")をラベル付けした。
我々は、2つのLMM(Qwen-2.5VLとGPT-4o)に、これらのイベントを1つのイベントで短いビデオで見つけるように求めた。
結果は、モデルがターゲットオブジェクトを確実に命名し、アクションを識別し、一貫性のある推論を提供することができるが、相互作用が開始または終了するフレームを常に識別できず、シーン内のイベントをローカライズできないことを示している。
以上の結果から,インタラクションを定義する物理的接触の時間と位置の特定に苦慮している場合には,動的シーンのより深い理解に必要な知覚的基盤が欠如していることが示唆された。
関連論文リスト
- InterRVOS: Interaction-aware Referring Video Object Segmentation [44.55538737075162]
インタラクションのモデリングに焦点をあてた新しいタスクであるInterRVOS(Interaction-Aware Referring Video Object)を紹介する。
モデルはアクターとターゲットオブジェクトを別々に分割し、相互作用におけるそれらの非対称的な役割を反映する必要がある。
本稿では,127K以上のアノテート表現を持つ大規模データセットであるInterRVOS-127Kについて述べる。
論文 参考訳(メタデータ) (2025-06-03T01:16:13Z) - BYE: Build Your Encoder with One Sequence of Exploration Data for Long-Term Dynamic Scene Understanding [18.991160292960277]
BYEはクラスに依存しない、シーン毎のクラウドエンコーダで、事前に定義されたカテゴリ、シェイププレファレンス、あるいは広範囲のアソシエーションデータセットの必要性を取り除く。
本稿では,視覚言語モデルとBYEのシーン固有の専門知識を組み合わせたアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T13:34:42Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。