論文の概要: PiTe: Pixel-Temporal Alignment for Large Video-Language Model
- arxiv url: http://arxiv.org/abs/2409.07239v1
- Date: Wed, 11 Sep 2024 12:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:35:46.040880
- Title: PiTe: Pixel-Temporal Alignment for Large Video-Language Model
- Title(参考訳): PiTe:大規模ビデオ言語モデルのための画素時間アライメント
- Authors: Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang,
- Abstract要約: 最近のLVidLM(Large Video-Language Models)は、画像のような静的な視覚データを言語機能の潜在空間に整列させる。
提案するLVidLMは,PiTeと呼ばれるトラジェクトリ誘導型Pixel-Temporal Alignmentによって実現可能なモデル特性を示す。
- 参考スコア(独自算出の注目度): 40.76776645042339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fueled by the Large Language Models (LLMs) wave, Large Visual-Language Models (LVLMs) have emerged as a pivotal advancement, bridging the gap between image and text. However, video making it challenging for LVLMs to perform adequately due to the complexity of the relationship between language and spatial-temporal data structure. Recent Large Video-Language Models (LVidLMs) align feature of static visual data like image into latent space of language feature, by general multi-modal tasks to leverage abilities of LLMs sufficiently. In this paper, we explore fine-grained alignment approach via object trajectory for different modalities across both spatial and temporal dimensions simultaneously. Thus, we propose a novel LVidLM by trajectory-guided Pixel-Temporal Alignment, dubbed PiTe, that exhibits promising applicable model property. To achieve fine-grained video-language alignment, we curate a multi-modal pre-training dataset PiTe-143k, the dataset provision of moving trajectories in pixel level for all individual objects, that appear and mention in the video and caption both, by our automatic annotation pipeline. Meanwhile, PiTe demonstrates astounding capabilities on myriad video-related multi-modal tasks through beat the state-of-the-art methods by a large margin.
- Abstract(参考訳): LLM(Large Language Models)波によって実現されたLVLM(Large Visual-Language Models)は、画像とテキストのギャップを埋める重要な進歩として現れている。
しかし、言語と時空間データ構造の関係が複雑化するため、LVLMが適切に機能することは困難である。
近年のLVidLM(Large Video-Language Models)は,LLMの能力を十分に活用するための汎用マルチモーダルタスクによって,画像のような静的な視覚データを言語特徴の潜在空間に整合させる。
本稿では,空間次元と時間次元の両方の異なるモードに対する物体軌道による微粒化アライメント手法を同時に検討する。
そこで我々は,PiTeと呼ばれる軌跡誘導Pixel-Temporal Alignmentを用いたLVidLMを提案する。
ビデオ言語アライメントを実現するために,自動アノテーションパイプラインを用いて,ビデオとキャプションの両方に現れる個々のオブジェクトの軌跡をピクセル単位で移動させるデータセットである,マルチモーダル事前学習データセットPiTe-143kをキュレートした。
一方、PiTeは、無数のビデオ関連マルチモーダルタスクに対して、最先端の手法を大きなマージンで打ち負かすことによって、驚くべき能力を示す。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。