論文の概要: MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations
- arxiv url: http://arxiv.org/abs/2503.15871v1
- Date: Thu, 20 Mar 2025 05:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:08.969858
- Title: MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations
- Title(参考訳): MASH-VLM: 空間空間空間表現によるビデオLLMにおける行動シーンの幻覚の緩和
- Authors: Kyungho Bae, Jinhyung Kim, Sihaeng Lee, Soonyoung Lee, Gunhee Lee, Jinwoo Choi,
- Abstract要約: アクションシーン幻覚は、ビデオモデルが観察されたアクションに基づいてシーンコンテキストやシーンに基づいてアクションを誤って予測する場合に発生する。
ビデオLLMにおけるMASH-VLM(Multigating Action-Scene Hallucination in Video-LLMs)を紹介する。
MASH-VLMはUNSCENEベンチマークや既存のビデオ理解ベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 8.374002556878605
- License:
- Abstract: In this work, we tackle action-scene hallucination in Video Large Language Models (Video-LLMs), where models incorrectly predict actions based on the scene context or scenes based on observed actions. We observe that existing Video-LLMs often suffer from action-scene hallucination due to two main factors. First, existing Video-LLMs intermingle spatial and temporal features by applying an attention operation across all tokens. Second, they use the standard Rotary Position Embedding (RoPE), which causes the text tokens to overemphasize certain types of tokens depending on their sequential orders. To address these issues, we introduce MASH-VLM, Mitigating Action-Scene Hallucination in Video-LLMs through disentangled spatial-temporal representations. Our approach includes two key innovations: (1) DST-attention, a novel attention mechanism that disentangles the spatial and temporal tokens within the LLM by using masked attention to restrict direct interactions between the spatial and temporal tokens; (2) Harmonic-RoPE, which extends the dimensionality of the positional IDs, allowing the spatial and temporal tokens to maintain balanced positions relative to the text tokens. To evaluate the action-scene hallucination in Video-LLMs, we introduce the UNSCENE benchmark with 1,320 videos and 4,078 QA pairs. Extensive experiments demonstrate that MASH-VLM achieves state-of-the-art results on the UNSCENE benchmark, as well as on existing video understanding benchmarks.
- Abstract(参考訳): 本研究では,映像大言語モデル(Video Large Language Models, Video-LLMs)におけるアクションシーンの幻覚に対処する。
既存のビデオLLMは2つの要因により、アクションシーンの幻覚に悩まされることが多い。
まず、既存のビデオLLMは、すべてのトークンに注意操作を適用することで、空間的特徴と時間的特徴を混在させる。
第二に、標準的なRotary Position Embedding (RoPE)を使用しており、これはテキストトークンがシーケンシャルな順序に応じて特定の種類のトークンを過度に強調する原因となっている。
これらの課題に対処するため,ビデオLLMにおけるMASH-VLM(Multigating Action-Scene Hallucination in Video-LLMs)を導入する。
本手法は,(1)空間的トークンと時間的トークンの直接的相互作用を制限するためにマスク付きアテンションを用いることにより,LLM内の空間的トークンと時間的トークンをアンタングル化する新しいアテンション機構であるDST-attention,(2)空間的トークンと時間的トークンの空間的IDの次元性を拡張し,空間的トークンと時間的トークンがテキストトークンに対してバランスの取れた位置を維持するためのハーモニック-RoPE,の2つの重要なイノベーションを含む。
ビデオLLMにおけるアクションシーンの幻覚を評価するため,UNSCENEベンチマークを1,320本,QAペア4,078本導入した。
大規模な実験により、MASH-VLMはUNSCENEベンチマークや既存のビデオ理解ベンチマークで最先端の結果を達成することが示された。
関連論文リスト
- The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness [6.634133253472436]
本稿では,動的表情キャプションに適した命令追従データセットを提案する。
データセットは、5,033本の高品質なビデオクリップを手動で注釈付けし、70,000以上のトークンを含んでいる。
また,このタスクにおける既存のビデオMLLMの性能を評価するためのベンチマークであるFEC-Benchを提案する。
論文 参考訳(メタデータ) (2025-01-14T09:52:56Z) - VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。
時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。
ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。