論文の概要: Exploring the Design Space of Visual Context Representation in Video MLLMs
- arxiv url: http://arxiv.org/abs/2410.13694v1
- Date: Thu, 17 Oct 2024 15:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:47.141351
- Title: Exploring the Design Space of Visual Context Representation in Video MLLMs
- Title(参考訳): ビデオMLLMにおける視覚的文脈表現の設計空間の探索
- Authors: Yifan Du, Yuqi Huo, Kun Zhou, Zijia Zhao, Haoyu Lu, Han Huang, Wayne Xin Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen,
- Abstract要約: ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
ビジュアルコンテキスト表現は、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
- 参考スコア(独自算出の注目度): 102.11582556690388
- License:
- Abstract: Video Multimodal Large Language Models (MLLMs) have shown remarkable capability of understanding the video semantics on various downstream tasks. Despite the advancements, there is still a lack of systematic research on visual context representation, which refers to the scheme to select frames from a video and further select the tokens from a frame. In this paper, we explore the design space for visual context representation, and aim to improve the performance of video MLLMs by finding more effective representation schemes. Firstly, we formulate the task of visual context representation as a constrained optimization problem, and model the language modeling loss as a function of the number of frames and the number of embeddings (or tokens) per frame, given the maximum visual context window size. Then, we explore the scaling effects in frame selection and token selection respectively, and fit the corresponding function curve by conducting extensive empirical experiments. We examine the effectiveness of typical selection strategies and present empirical findings to determine the two factors. Furthermore, we study the joint effect of frame selection and token selection, and derive the optimal formula for determining the two factors. We demonstrate that the derived optimal settings show alignment with the best-performed results of empirical experiments. Our code and model are available at: https://github.com/RUCAIBox/Opt-Visor.
- Abstract(参考訳): ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
進歩にもかかわらず、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す視覚的文脈表現に関する体系的な研究がまだ残っていない。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
まず、制約付き最適化問題として視覚的コンテキスト表現のタスクを定式化し、最大視覚的コンテキストウィンドウサイズを考慮し、フレーム数とフレーム単位の埋め込み数(トークン数)の関数として言語モデリング損失をモデル化する。
そこで, フレーム選択とトークン選択のスケーリング効果について検討し, 広範な実験を行い, 対応する関数曲線に適合することを示した。
本研究は, 典型的な選択戦略の有効性について検討し, その2つの要因について検討した。
さらに,フレーム選択とトークン選択の結合効果について検討し,その2つの要因を決定するための最適式を導出する。
得られた最適設定は,実験結果と最適に一致していることを示す。
私たちのコードとモデルは、https://github.com/RUCAIBox/Opt-Visor.comで利用可能です。
関連論文リスト
- FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection [51.004020874336284]
VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。
提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。
提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。