Fugu-MT 論文翻訳(概要): ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

論文の概要: ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

arxiv url: http://arxiv.org/abs/2411.14901v1
Date: Fri, 22 Nov 2024 12:46:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.162052
Title: ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos
Title（参考訳）: ReVisionLLM:時間長ビデオにおける時間的グラウンド化のための再帰的ビジョンランゲージモデル
Authors: Tanveer Hannan, Md Mohaiminul Islam, Jindong Gu, Thomas Seidl, Gedas Bertasius,
Abstract要約: ReVisionLLMは、1時間ビデオ中のイベントを見つけるために設計された視覚言語モデルである。人間の検索戦略にインスパイアされた私たちのモデルは、当初は幅広い関心領域をターゲットとしていました。私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。
参考スコア（独自算出の注目度）: 25.988212332357545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) excel at retrieving information from lengthy text, but their vision-language counterparts (VLMs) face difficulties with hour-long videos, especially for temporal grounding. Specifically, these VLMs are constrained by frame limitations, often losing essential temporal details needed for accurate event localization in extended video content. We propose ReVisionLLM, a recursive vision-language model designed to locate events in hour-long videos. Inspired by human search strategies, our model initially targets broad segments of interest, progressively revising its focus to pinpoint exact temporal boundaries. Our model can seamlessly handle videos of vastly different lengths, from minutes to hours. We also introduce a hierarchical training strategy that starts with short clips to capture distinct events and progressively extends to longer videos. To our knowledge, ReVisionLLM is the first VLM capable of temporal grounding in hour-long videos, outperforming previous state-of-the-art methods across multiple datasets by a significant margin (+2.6% R1@0.1 on MAD). The code is available at https://github.com/Tanveer81/ReVisionLLM.
Abstract（参考訳）: 大きな言語モデル(LLM)は、長いテキストから情報を取得するのに優れているが、その視覚言語モデル(VLM)は、特に時間的な接地のために、1時間のビデオで困難に直面している。具体的には、これらのVLMはフレーム制限によって制限されており、拡張されたビデオコンテンツにおける正確なイベントローカライゼーションに必要な時間的詳細を欠くことが多い。本研究では1時間ビデオ中のイベントの探索を目的とした再帰的視覚言語モデルReVisionLLMを提案する。人間の検索戦略にインスパイアされた我々のモデルは、最初は幅広い関心領域を対象とし、時間的境界を正確に特定する焦点を徐々に修正した。私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。また、短いクリップから始まる階層的なトレーニング戦略を導入し、異なるイベントをキャプチャし、より長いビデオに徐々に拡張します。我々の知る限り、ReVisionLLMは1時間ビデオの時間的グラウンド化が可能な最初のVLMであり、複数のデータセットにわたる従来の最先端の手法を、大きなマージン(MADでは+2.6% R1@0.1)で上回っている。コードはhttps://github.com/Tanveer81/ReVisionLLMで公開されている。

関連論文リスト

Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。 Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文参考訳（メタデータ） (2025-08-13T04:33:07Z)
Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文参考訳（メタデータ） (2025-07-07T06:51:40Z)
Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。本研究では,TemporalVLMの評価を容易にするために,産業集積プロセス,すなわちIndustrialASMの大規模ビデオデータセットを提案する。
論文参考訳（メタデータ） (2024-12-04T00:50:33Z)
ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文参考訳（メタデータ） (2024-11-23T13:23:22Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文参考訳（メタデータ） (2024-10-08T06:21:29Z)
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文参考訳（メタデータ） (2024-10-04T10:04:37Z)
Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文参考訳（メタデータ） (2024-08-29T02:25:12Z)
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-04-08T17:59:24Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文参考訳（メタデータ） (2024-03-21T22:36:24Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。ビデオLLMはビデオ全体の粗い記述しか提供できない。微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文参考訳（メタデータ） (2023-11-30T10:49:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。