Fugu-MT 論文翻訳(概要): LVCHAT: Facilitating Long Video Comprehension

論文の概要: LVCHAT: Facilitating Long Video Comprehension

arxiv url: http://arxiv.org/abs/2402.12079v1
Date: Mon, 19 Feb 2024 11:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:36:16.032668
Title: LVCHAT: Facilitating Long Video Comprehension
Title（参考訳）: lvchat: 長いビデオ理解の促進
Authors: Yu Wang, Zeyuan Zhang, Julian McAuley, Zexue He
Abstract要約: 本稿では,Long Video Chat (LVChat) を提案する。 LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
参考スコア（独自算出の注目度）: 25.395689904747965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Enabling large language models (LLMs) to read videos is vital for multimodal LLMs. Existing works show promise on short videos whereas long video (longer than e.g.~1 minute) comprehension remains challenging. The major problem lies in the over-compression of videos, i.e., the encoded video representations are not enough to represent the whole video. To address this issue, we propose Long Video Chat (LVChat), where Frame-Scalable Encoding (FSE) is introduced to dynamically adjust the number of embeddings in alignment with the duration of the video to ensure long videos are not overly compressed into a few embeddings. To deal with long videos whose length is beyond videos seen during training, we propose Interleaved Frame Encoding (IFE), repeating positional embedding and interleaving multiple groups of videos to enable long video input, avoiding performance degradation due to overly long videos. Experimental results show that LVChat significantly outperforms existing methods by up to 27\% in accuracy on long-video QA datasets and long-video captioning benchmarks. Our code is published at https://github.com/wangyu-ustc/LVChat.
Abstract（参考訳）: マルチモーダルllmでは,大規模言語モデル(llm)によるビデオの可読化が不可欠である。既存の作品は短いビデオに約束を示すが、長いビデオ(例えば1分以上)の理解は難しいままである。主な問題は、ビデオの過剰圧縮、つまりエンコードされたビデオ表現がビデオ全体を表現するのに十分でないことである。そこで本稿では,フレームスカラーエンコーディング (fse) を導入することで,ビデオの持続時間に合わせてフレームスカラーエンコーディングの回数を動的に調整し,複数のエンベッドに長いビデオが過度に圧縮されないようにする長尺ビデオチャット (lvchat) を提案する。トレーニング中に見るビデオの長さを超える長いビデオを扱うため,インターリーブフレームエンコーディング (ife) を提案し,複数のビデオグループ間の位置埋め込みとインターリーブを行い,長いビデオ入力を可能にし,過度に長いビデオによるパフォーマンス低下を回避する。実験の結果,LVChatは,長ビデオQAデータセットと長ビデオキャプションベンチマークにおいて,最大27倍の精度で既存手法よりも優れていた。私たちのコードはhttps://github.com/wangyu-ustc/lvchatで公開しています。

関連論文リスト

Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。 LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文参考訳（メタデータ） (2024-10-14T17:59:56Z)
DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文参考訳（メタデータ） (2024-06-18T17:59:03Z)
LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文参考訳（メタデータ） (2024-06-12T09:36:52Z)
Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-05-30T06:10:10Z)
Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文参考訳（メタデータ） (2024-05-25T02:22:09Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文参考訳（メタデータ） (2022-04-06T14:43:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。