Fugu-MT 論文翻訳(概要): VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs

論文の概要: VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs

arxiv url: http://arxiv.org/abs/2409.20365v2
Date: Fri, 4 Oct 2024 21:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 15:48:47.507859
Title: VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
Title（参考訳）: VideoINSTA: LLMを用いたインフォーマティブ空間時間推論によるゼロショット長ビデオ理解
Authors: Ruotong Liao, Max Erler, Huiyu Wang, Guangyao Zhai, Gengyuan Zhang, Yunpu Ma, Volker Tresp,
Abstract要約: 長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。 Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
参考スコア（独自算出の注目度）: 27.473258727617477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the video-language domain, recent works in leveraging zero-shot Large Language Model-based reasoning for video understanding have become competitive challengers to previous end-to-end models. However, long video understanding presents unique challenges due to the complexity of reasoning over extended timespans, even for zero-shot LLM-based approaches. The challenge of information redundancy in long videos prompts the question of what specific information is essential for large language models (LLMs) and how to leverage them for complex spatial-temporal reasoning in long-form video analysis. We propose a framework VideoINSTA, i.e. INformative Spatial-TemporAl Reasoning for zero-shot long-form video understanding. VideoINSTA contributes (1) a zero-shot framework for long video understanding using LLMs; (2) an event-based temporal reasoning and content-based spatial reasoning approach for LLMs to reason over spatial-temporal information in videos; (3) a self-reflective information reasoning scheme balancing temporal factors based on information sufficiency and prediction confidence. Our model significantly improves the state-of-the-art on three long video question-answering benchmarks: EgoSchema, NextQA, and IntentQA, and the open question answering dataset ActivityNetQA. The code is released here: https://github.com/mayhugotong/VideoINSTA.
Abstract（参考訳）: ビデオ言語領域では、ビデオ理解のためのゼロショットのLarge Language Modelベースの推論を利用した最近の研究が、従来のエンドツーエンドモデルと競合する問題となっている。しかし、長いビデオ理解は、ゼロショットLCMベースのアプローチであっても、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を呈している。長ビデオにおける情報冗長性の課題は、大規模言語モデル(LLM)にどのような情報が必要なのか、そしてそれを長期ビデオ解析における複雑な時空間推論にどのように活用するかという問題を引き起こす。 Informative Spatial-TemporAl Reasoning for zero-shot long-form video understanding。 VideoINSTAは,(1)LLMを用いた長時間ビデオ理解のためのゼロショットフレームワーク,(2)ビデオ内の空間的時間的情報を引き出すイベントベースの時間的推論とコンテンツに基づく空間的推論アプローチ,(3)情報充足性と予測信頼度に基づく時間的要因のバランスをとる自己反射的情報推論スキームを提供する。 EgoSchema、NextQA、IntentQAの3つの長いビデオ質問応答ベンチマークと、オープンな質問応答データセットActivityNetQA。コードは、https://github.com/mayhugotong/VideoINSTA.comで公開されている。

関連論文リスト

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文参考訳（メタデータ） (2025-08-06T13:03:21Z)
Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文参考訳（メタデータ） (2025-05-30T17:59:19Z)
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding? [27.128582163847]
ハイスコアがビデオのダイナミックコンテンツに対するより強力な理解を示すかどうかを曖昧にする2つの大きな制限を同定する。質問をLLM-Answerable、Semantic、Temporalの3つのドメインに分類する自動パイプラインであるVBenchCompを提案する。
論文参考訳（メタデータ） (2025-05-20T13:07:55Z)
Online Reasoning Video Segmentation with Just-in-Time Digital Twins [8.568569213914378]
推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいて関心のあるオブジェクトを識別し、セグメンテーションすることを目的としている。現在のRSアプローチは、マルチモーダルな大言語モデルの視覚知覚能力に大きく依存している。 LLMの微調整を伴わないオンラインビデオRSの認識と推論を阻害するエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-27T00:06:40Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。 LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文参考訳（メタデータ） (2024-12-18T13:38:06Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-01T12:02:19Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文参考訳（メタデータ） (2023-12-28T18:58:01Z)
Retrieval-based Video Language Model for Efficient Long Video Question Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-12-08T09:48:36Z)
VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。ビデオLLMはビデオ全体の粗い記述しか提供できない。微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文参考訳（メタデータ） (2023-11-30T10:49:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。