論文の概要: MASR: Self-Reflective Reasoning through Multimodal Hierarchical Attention Focusing for Agent-based Video Understanding
- arxiv url: http://arxiv.org/abs/2504.17213v2
- Date: Mon, 28 Apr 2025 05:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.231189
- Title: MASR: Self-Reflective Reasoning through Multimodal Hierarchical Attention Focusing for Agent-based Video Understanding
- Title(参考訳): MASR:エージェントによる映像理解に焦点をあてたマルチモーダル階層的アテンションによる自己反射的推論
- Authors: Shiwen Cao, Zhaoxing Zhang, Junming Jiao, Juyi Qiao, Guowen Song, Rong Shen, Xiangbing Meng,
- Abstract要約: 本稿では,エージェントによる映像理解のための自己表現型推論フレームワークを提案する。
重要なイノベーションは、クエリに非常に関係のあるビデオのセグメントを検出し、優先順位付けできることにある。
- 参考スコア(独自算出の注目度): 0.8202721523031419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even in the era of rapid advances in large models, video understanding remains a highly challenging task. Compared to texts or images, videos commonly contain more information with redundancy, requiring large models to properly allocate attention at a global level for comprehensive and accurate understanding. To address this, we propose a Multimodal hierarchical Attention focusing Self-reflective Reasoning (MASR) framework for agent-based video understanding. The key innovation lies in its ability to detect and prioritize segments of videos that are highly relevant to the query. Firstly, MASR realizes Multimodal Coarse-to-fine Relevance Sensing (MCRS) which enhances the correlation between the acquired contextual information and the query. Secondly, MASR employs Dilated Temporal Expansion (DTE) to mitigate the risk of missing crucial details when extracting semantic information from the focused frames selected through MCRS. By iteratively applying MCRS and DTE in the self-reflective reasoning process, MASR is able to adaptively adjust the attention to extract highly query-relevant context and therefore improve the response accuracy. In the EgoSchema dataset, MASR achieves a remarkable 5% performance gain over previous leading approaches. In the Next-QA and IntentQA datasets, it outperforms the state-of-the-art standards by 0.2% and 0.3% respectively. In the Video-MME dataset that contains long-term videos, MASR also performs better than other agent-based methods.
- Abstract(参考訳): 大規模モデルの急速な進歩の時代でさえ、ビデオ理解は非常に難しい課題である。
テキストや画像と比較すると、ビデオには通常冗長性のあるより多くの情報が含まれており、包括的かつ正確な理解のためには、大規模なモデルがグローバルレベルで注意を適切に割り当てる必要がある。
そこで本稿では,エージェントによる映像理解のためのマルチモーダル階層型自己表現推論(MASR)フレームワークを提案する。
重要なイノベーションは、クエリに非常に関係のあるビデオのセグメントを検出し、優先順位付けできることにある。
まず,Multimodal Coarse-to-fine Relevance Sensing (MCRS) を実現する。
第二に、MASR は Dilated Temporal Expansion (DTE) を用いて、MCRS を通じて選択された集中フレームから意味情報を抽出する際に、欠落する重要な詳細のリスクを軽減する。
自己回帰推論プロセスにおいてMCRSとDTEを反復的に適用することにより、MASRは注意を適応的に調整し、クエリ関連性の高いコンテキストを抽出し、応答精度を向上させることができる。
EgoSchemaデータセットでは、MASRは従来の主要なアプローチよりも5%パフォーマンスが向上している。
Next-QAデータセットとIntentQAデータセットでは、それぞれ最先端標準の0.2%と0.3%を上回っている。
長期的なビデオを含むVideo-MMEデータセットでは、MASRは他のエージェントベースの方法よりもパフォーマンスがよい。
関連論文リスト
- mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。
エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。
Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文 参考訳(メタデータ) (2024-08-30T17:52:55Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning [3.520960737058199]
マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
論文 参考訳(メタデータ) (2024-08-08T06:16:00Z) - OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Is Attention Better Than Matrix Decomposition? [58.813382406412195]
我々は,長距離依存を符号化する行列分解モデルよりも自己注意の方が優れていることを示す。
本稿では,MDを解くための最適化アルゴリズムを用いて,入力表現をサブ行列に分解し,低ランクな埋め込みを再構築する一連のハンブルガーを提案する。
グローバルな文脈を学習することが不可欠であるビジョンタスクにおいて、総合的な実験が実施される。
論文 参考訳(メタデータ) (2021-09-09T20:40:19Z) - Query Twice: Dual Mixture Attention Meta Learning for Video
Summarization [26.94862888911233]
ビデオ要約は、ハイレベルな情報を保持するために代表フレームを選択することを目的としている。
ソフトマックス関数は複雑な視覚情報やシーケンシャル情報に対する高階表現の保持に苦しむ。
本稿では,ビデオ要約のためのメタラーニングを用いたDMASum(Dual Mixture Attention)モデルを提案する。
論文 参考訳(メタデータ) (2020-08-19T10:12:52Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。