論文の概要: Pop-Up Distractions Reveal Bag-of-Events Behavior in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2605.27101v1
- Date: Tue, 26 May 2026 14:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.267135
- Title: Pop-Up Distractions Reveal Bag-of-Events Behavior in Video Large Language Models
- Title(参考訳): ビデオ大言語モデルにおけるイベントのバグ・オブ・イベント行動の集団化
- Authors: Oscar Chew, Serhii Honcharenko, Qian-Hui Chen, Patricia Lu, Dishant Zaveri, Khoa D. Doan, Kuan-Hao Huang,
- Abstract要約: 我々は,ビデオ大言語モデル (VideoLLM) が,無関係なビデオセグメントの存在下で,被写体や事象を強く関連付けることができるかどうかを評価する。
ビデオLLMは, 異なるセグメントのエンティティ間の相互作用を幻覚させることが多く, メインビデオにおいて, インジェクション広告からのアクションを被験者に誤った帰属させる。
以上の結果から,ビデオLLMには時間的接地機構が欠如していることが示唆された。
- 参考スコア(独自算出の注目度): 13.934639779174107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key capability for video understanding is reliably linking subjects to events across time, yet whether Video Large Language Models (VideoLLMs) actually achieve this remains unclear. In this work, we introduce DistractionBench to evaluate whether VideoLLMs can robustly link subjects and events in the presence of unrelated video segments. Through controlled interventions, such as inserting short advertisement clips into longer videos, we show that VideoLLMs frequently hallucinate interactions between entities from different segments, incorrectly attributing actions from injected advertisements to subjects in the main video. We characterize this systematic hallucination as bag-of-events (BoE) behavior, where models process videos as collections of events rather than temporally structured sequences. Evaluating 11 popular VideoLLMs, we find that all models exhibit substantial BoE behavior. Our findings suggest that VideoLLMs lack reliable mechanisms for temporal grounding and motivate the development of models with more robust subject-event association.
- Abstract(参考訳): ビデオ理解の重要な機能は、時間を通して被写体を確実にイベントにリンクすることだが、ビデオ大言語モデル(Video Large Language Models, VideoLLMs)が実際にこれを実現するかどうかは不明だ。
本研究では,無関係なビデオセグメントの存在下で,ビデオLLMが被写体やイベントを堅牢にリンクできるかどうかを評価するためにDistractionBenchを導入する。
短い広告クリップを長いビデオに挿入するといった制御された介入を通して、ビデオLLMは、異なるセグメントのエンティティ間の相互作用を頻繁に幻覚させ、メインビデオ内の被写体に挿入された広告からのアクションを誤って帰着させることを示した。
この体系的な幻覚を、時間的に構造化されたシーケンスではなく、映像をイベントの集合として処理する、バッグ・オブ・エグゼクト(BoE)行動として特徴づける。
人気のビデオLLMを11個評価すると、すべてのモデルが相当なBoE挙動を示すことが分かる。
以上の結果から,ビデオLLMには時間的接地機構が欠如していることが示唆された。
関連論文リスト
- ActionParty: Multi-Subject Action Binding in Generative Video Games [117.52562594944679]
ActionPartyは、ゲーム生成のための制御可能な多目的世界モデルである。
46の多様な環境において最大7人のプレイヤーを同時に制御できる最初のビデオワールドモデルを実証する。
論文 参考訳(メタデータ) (2026-04-02T17:59:58Z) - While recognizing actions, LMMs struggle to detect core interaction events [18.828641379675243]
我々は,Sone-Something-V2データセットの動画に20K以上の注釈付きインタラクションを備えた,この種の大規模データセットを紹介した。
AMTurk Human Annotator 250は、中核的な相互作用イベント、特に、いつ、どこでオブジェクトやエージェントがアタッチされるかをラベル付けした。
モデルは、ターゲットオブジェクトを確実に命名し、アクションを識別し、一貫性のある推論を提供するが、相互作用が開始または終了するフレームを常に識別できないことを示す。
論文 参考訳(メタデータ) (2025-11-25T10:38:41Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering [36.00733800536469]
VideoQAは、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
人間は一連のエピソード記憶をアンカーとして使い、推論のための質問に関連する重要な瞬間を素早く見つけることで、簡単に対処できる。
この効果的な推論戦略を模倣するGlance-Focusモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:51:16Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。