論文の概要: LITA: Language Instructed Temporal-Localization Assistant
- arxiv url: http://arxiv.org/abs/2403.19046v1
- Date: Wed, 27 Mar 2024 22:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:52:05.668225
- Title: LITA: Language Instructed Temporal-Localization Assistant
- Title(参考訳): LITA:テンポラルローカライズアシスタントによる言語指導
- Authors: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz,
- Abstract要約: ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 71.68815100776278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been tremendous progress in multimodal Large Language Models (LLMs). Recent works have extended these models to video input with promising instruction following capabilities. However, an important missing piece is temporal localization. These models cannot accurately answer the "When?" questions. We identify three key aspects that limit their temporal localization capabilities: (i) time representation, (ii) architecture, and (iii) data. We address these shortcomings by proposing Language Instructed Temporal-Localization Assistant (LITA) with the following features: (1) We introduce time tokens that encode timestamps relative to the video length to better represent time in videos. (2) We introduce SlowFast tokens in the architecture to capture temporal information at fine temporal resolution. (3) We emphasize temporal localization data for LITA. In addition to leveraging existing video datasets with timestamps, we propose a new task, Reasoning Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for learning and evaluating this task. Reasoning temporal localization requires both the reasoning and temporal localization of Video LLMs. LITA demonstrates strong performance on this challenging task, nearly doubling the temporal mean intersection-over-union (mIoU) of baselines. In addition, we show that our emphasis on temporal localization also substantially improves video-based text generation compared to existing Video LLMs, including a 36% relative improvement of Temporal Understanding. Code is available at: https://github.com/NVlabs/LITA
- Abstract(参考訳): LLM(Multimodal Large Language Models)は、非常に進歩した言語である。
近年の研究では、これらのモデルを有望な命令従機能を備えたビデオ入力に拡張している。
しかし、重要な欠落点は時間的局所化である。
これらのモデルは「いつ?」という質問に正確に答えることができない。
時間的ローカライゼーション能力を制限する3つの重要な側面を特定します。
(i)時間表現
(二)建築、及び
(三)データ。
言語指導型時間ローカライズアシスタント (LITA) では,(1) ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,映像中の時間を表現する。
2) SlowFastトークンをアーキテクチャに導入し, 時間的情報を微細な時間的解像度でキャプチャする。
(3)LITAの時間的局所化データを強調した。
タイムスタンプによる既存のビデオデータセットの活用に加えて、このタスクを学習し評価するためのデータセットであるActivityNet-RTLとともに、RTL(Reasoning Temporal Localization)という新しいタスクを提案する。
時間的ローカライゼーションは、ビデオLLMの推論と時間的ローカライゼーションの両方を必要とする。
LITAはこの課題に対して強いパフォーマンスを示し、ベースラインの時間平均交叉平均(mIoU)をほぼ倍にしている。
また,時間的ローカライゼーションの重視は,時間的理解の相対的改善を含む既存のビデオLLMと比較して,映像ベースのテキスト生成を著しく向上させることを示した。
コードは、https://github.com/NVlabs/LITAで入手できる。
関連論文リスト
- TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Language Repository for Long Video Understanding [41.17102343915504]
本稿では,マルチモーダルビジョン LLM のための言語リポジトリ (LangRepo) を提案する。
我々のリポジトリは、簡潔で構造化された情報を解釈可能な(オールテクスチュアルな)表現として保持しています。
論文 参考訳(メタデータ) (2024-03-21T17:59:35Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。