Fugu-MT 論文翻訳(概要): LITA: Language Instructed Temporal-Localization Assistant

論文の概要: LITA: Language Instructed Temporal-Localization Assistant

arxiv url: http://arxiv.org/abs/2403.19046v1
Date: Wed, 27 Mar 2024 22:50:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 17:52:05.668225
Title: LITA: Language Instructed Temporal-Localization Assistant
Title（参考訳）: LITA:テンポラルローカライズアシスタントによる言語指導
Authors: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz,
Abstract要約: ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
参考スコア（独自算出の注目度）: 71.68815100776278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been tremendous progress in multimodal Large Language Models (LLMs). Recent works have extended these models to video input with promising instruction following capabilities. However, an important missing piece is temporal localization. These models cannot accurately answer the "When?" questions. We identify three key aspects that limit their temporal localization capabilities: (i) time representation, (ii) architecture, and (iii) data. We address these shortcomings by proposing Language Instructed Temporal-Localization Assistant (LITA) with the following features: (1) We introduce time tokens that encode timestamps relative to the video length to better represent time in videos. (2) We introduce SlowFast tokens in the architecture to capture temporal information at fine temporal resolution. (3) We emphasize temporal localization data for LITA. In addition to leveraging existing video datasets with timestamps, we propose a new task, Reasoning Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for learning and evaluating this task. Reasoning temporal localization requires both the reasoning and temporal localization of Video LLMs. LITA demonstrates strong performance on this challenging task, nearly doubling the temporal mean intersection-over-union (mIoU) of baselines. In addition, we show that our emphasis on temporal localization also substantially improves video-based text generation compared to existing Video LLMs, including a 36% relative improvement of Temporal Understanding. Code is available at: https://github.com/NVlabs/LITA
Abstract（参考訳）: LLM(Multimodal Large Language Models)は、非常に進歩した言語である。近年の研究では、これらのモデルを有望な命令従機能を備えたビデオ入力に拡張している。しかし、重要な欠落点は時間的局所化である。これらのモデルは「いつ?」という質問に正確に答えることができない。時間的ローカライゼーション能力を制限する3つの重要な側面を特定します。 (i)時間表現 (二)建築、及び (三)データ。言語指導型時間ローカライズアシスタント (LITA) では,(1) ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,映像中の時間を表現する。 2) SlowFastトークンをアーキテクチャに導入し, 時間的情報を微細な時間的解像度でキャプチャする。 (3)LITAの時間的局所化データを強調した。タイムスタンプによる既存のビデオデータセットの活用に加えて、このタスクを学習し評価するためのデータセットであるActivityNet-RTLとともに、RTL(Reasoning Temporal Localization)という新しいタスクを提案する。時間的ローカライゼーションは、ビデオLLMの推論と時間的ローカライゼーションの両方を必要とする。 LITAはこの課題に対して強いパフォーマンスを示し、ベースラインの時間平均交叉平均(mIoU)をほぼ倍にしている。また,時間的ローカライゼーションの重視は,時間的理解の相対的改善を含む既存のビデオLLMと比較して,映像ベースのテキスト生成を著しく向上させることを示した。コードは、https://github.com/NVlabs/LITAで入手できる。

関連論文リスト

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。 DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。 DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-30T08:10:18Z)
Measure Twice, Cut Once: Grasping Video Structures and Event Semantics with LLMs for Video Temporal Localization [22.46313255627877]
時間的局所化タスクのためのタイムスタンプのないフレームワークであるMeCoを紹介する。 MeCoは、提案された構造トークン生成とグラウンドパイプラインに基づいて、ビデオを全体的なイベントとトランジションセグメントに分割する。本稿では,LLMを補完するクエリ中心のキャプションタスクを提案する。
論文参考訳（メタデータ） (2025-03-12T03:33:50Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。 LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文参考訳（メタデータ） (2024-12-18T13:38:06Z)
TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。 LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。 MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文参考訳（メタデータ） (2024-11-24T07:02:32Z)
Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。 LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-10-08T16:10:29Z)
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文参考訳（メタデータ） (2024-06-26T06:59:09Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Language Repository for Long Video Understanding [41.17102343915504]
本稿では,マルチモーダルビジョン LLM のための言語リポジトリ (LangRepo) を提案する。我々のリポジトリは、簡潔で構造化された情報を解釈可能な(オールテクスチュアルな)表現として保持しています。
論文参考訳（メタデータ） (2024-03-21T17:59:35Z)
Self-Chained Image-Language Model for Video Localization and Question Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文参考訳（メタデータ） (2023-05-11T17:23:00Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。