Fugu-MT 論文翻訳(概要): Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

論文の概要: Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

arxiv url: http://arxiv.org/abs/2407.12679v1
Date: Wed, 17 Jul 2024 15:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 16:26:03.973500
Title: Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
Title（参考訳）: Goldfish:視界を照らして見る動画
Authors: Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny,
Abstract要約: 任意の長さのビデオの解釈に適した手法を提案する。また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
参考スコア（独自算出の注目度）: 51.547065479762715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most current LLM-based models for video understanding can process videos within minutes. However, they struggle with lengthy videos due to challenges such as "noise and redundancy", as well as "memory and computation" constraints. In this paper, we present Goldfish, a methodology tailored for comprehending videos of arbitrary lengths. We also introduce the TVQA-long benchmark, specifically designed to evaluate models' capabilities in understanding long videos with questions in both vision and text content. Goldfish approaches these challenges with an efficient retrieval mechanism that initially gathers the top-k video clips relevant to the instruction before proceeding to provide the desired response. This design of the retrieval mechanism enables the Goldfish to efficiently process arbitrarily long video sequences, facilitating its application in contexts such as movies or television series. To facilitate the retrieval process, we developed MiniGPT4-Video that generates detailed descriptions for the video clips. In addressing the scarcity of benchmarks for long video evaluation, we adapted the TVQA short video benchmark for extended content analysis by aggregating questions from entire episodes, thereby shifting the evaluation from partial to full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows exceptional performance in short video comprehension, exceeding existing state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT, TGIF, and TVQA short video benchmarks, respectively. These results indicate that our models have significant improvements in both long and short-video understanding. Our models and code have been made publicly available at https://vision-cair.github.io/Goldfish_website/
Abstract（参考訳）: 現在のLLMベースのビデオ理解モデルは、数分でビデオを処理することができる。しかし、"ノイズと冗長性"や"メモリと計算"の制約といった問題のために、長いビデオで苦労している。本稿では,任意の長さのビデオの解釈に適した手法であるGoldfishを紹介する。また,TVQA-longベンチマークを導入し,視覚コンテンツとテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。 Goldfishはこれらの課題に,まずは指示に関連するトップkビデオクリップを収集して,必要な応答を提供するための効率的な検索メカニズムでアプローチする。この検索機構の設計により、Goldfishは任意に長いビデオシーケンスを効率的に処理することができ、映画やテレビシリーズなどのコンテキストでの利用が容易になる。検索を容易にするために,ビデオクリップの詳細な記述を生成するMiniGPT4-Videoを開発した。長大なビデオ評価のためのベンチマークの不足に対処するため,TVQAショートビデオベンチマークを全エピソードからの質問を集約し,部分的なエピソード理解から全エピソード理解にシフトすることで,拡張コンテンツ分析に応用した。我々はTVQA-longベンチマークで41.78%の精度を達成し、以前の手法を14.94%上回った。我々のMiniGPT4-Videoは、MSVD、MSRVTT、TGIF、TVQAのショートビデオベンチマークにおいて、既存の最先端の手法を3.23%、2.03%、16.5%、および23.59%以上上回る、短いビデオ理解における例外的なパフォーマンスを示している。これらの結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。私たちのモデルとコードはhttps://vision-cair.github.io/Goldfish_website/で公開されています。

関連論文リスト

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding [106.23494088118571]
LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。これは、その後の処理において最も情報に富むビデオクリップを推測する。 LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
論文参考訳（メタデータ） (2026-02-24T13:49:47Z)
Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。 OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文参考訳（メタデータ） (2025-12-09T09:40:20Z)
Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
VideoAds for Fast-Paced Video Understanding [33.05564519544605]
広告ビデオ上でMLLMのパフォーマンスをベンチマークするための最初のデータセットであるVideoAdsを紹介する。 VideoAdsは、複雑な時間構造を持つよく計算された広告ビデオで構成されており、テキストに手動で注釈付けされた多様な質問が伴っている。オープンソースのMLLMであるQwen2.5-VL-72Bは、ビデオ広告で73.35%の精度を実現し、GPT-4oとGemini-1.5 Proを上回っている。
論文参考訳（メタデータ） (2025-04-12T17:05:35Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文参考訳（メタデータ） (2024-07-22T16:00:55Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文参考訳（メタデータ） (2024-06-18T17:59:03Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文参考訳（メタデータ） (2023-12-28T18:58:01Z)
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文参考訳（メタデータ） (2022-04-06T14:43:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。