論文の概要: LITA: Language Instructed Temporal-Localization Assistant
- arxiv url: http://arxiv.org/abs/2403.19046v1
- Date: Wed, 27 Mar 2024 22:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:52:05.668225
- Title: LITA: Language Instructed Temporal-Localization Assistant
- Title(参考訳): LITA:テンポラルローカライズアシスタントによる言語指導
- Authors: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz,
- Abstract要約: ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 71.68815100776278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been tremendous progress in multimodal Large Language Models (LLMs). Recent works have extended these models to video input with promising instruction following capabilities. However, an important missing piece is temporal localization. These models cannot accurately answer the "When?" questions. We identify three key aspects that limit their temporal localization capabilities: (i) time representation, (ii) architecture, and (iii) data. We address these shortcomings by proposing Language Instructed Temporal-Localization Assistant (LITA) with the following features: (1) We introduce time tokens that encode timestamps relative to the video length to better represent time in videos. (2) We introduce SlowFast tokens in the architecture to capture temporal information at fine temporal resolution. (3) We emphasize temporal localization data for LITA. In addition to leveraging existing video datasets with timestamps, we propose a new task, Reasoning Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for learning and evaluating this task. Reasoning temporal localization requires both the reasoning and temporal localization of Video LLMs. LITA demonstrates strong performance on this challenging task, nearly doubling the temporal mean intersection-over-union (mIoU) of baselines. In addition, we show that our emphasis on temporal localization also substantially improves video-based text generation compared to existing Video LLMs, including a 36% relative improvement of Temporal Understanding. Code is available at: https://github.com/NVlabs/LITA
- Abstract(参考訳): LLM(Multimodal Large Language Models)は、非常に進歩した言語である。
近年の研究では、これらのモデルを有望な命令従機能を備えたビデオ入力に拡張している。
しかし、重要な欠落点は時間的局所化である。
これらのモデルは「いつ?」という質問に正確に答えることができない。
時間的ローカライゼーション能力を制限する3つの重要な側面を特定します。
(i)時間表現
(二)建築、及び
(三)データ。
言語指導型時間ローカライズアシスタント (LITA) では,(1) ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,映像中の時間を表現する。
2) SlowFastトークンをアーキテクチャに導入し, 時間的情報を微細な時間的解像度でキャプチャする。
(3)LITAの時間的局所化データを強調した。
タイムスタンプによる既存のビデオデータセットの活用に加えて、このタスクを学習し評価するためのデータセットであるActivityNet-RTLとともに、RTL(Reasoning Temporal Localization)という新しいタスクを提案する。
時間的ローカライゼーションは、ビデオLLMの推論と時間的ローカライゼーションの両方を必要とする。
LITAはこの課題に対して強いパフォーマンスを示し、ベースラインの時間平均交叉平均(mIoU)をほぼ倍にしている。
また,時間的ローカライゼーションの重視は,時間的理解の相対的改善を含む既存のビデオLLMと比較して,映像ベースのテキスト生成を著しく向上させることを示した。
コードは、https://github.com/NVlabs/LITAで入手できる。
関連論文リスト
- VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Language Repository for Long Video Understanding [41.17102343915504]
本稿では,マルチモーダルビジョン LLM のための言語リポジトリ (LangRepo) を提案する。
我々のリポジトリは、簡潔で構造化された情報を解釈可能な(オールテクスチュアルな)表現として保持しています。
論文 参考訳(メタデータ) (2024-03-21T17:59:35Z) - LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding [48.83009641950664]
言語誘導型空間確率学習(LSTP)という新しい手法を導入する。
このアプローチでは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを予め備えた時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素間の複雑な空間関係を正確にキャプチャする空間的プロンプトソルバ(SPS)の2つの重要なコンポーネントを特徴とする。
TPSとSPSを協調学習戦略で調和させることで, 計算効率, 時間的理解, 時空間的アライメントを著しく向上させる。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。