論文の概要: NeMo: Needle in a Montage for Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2509.24563v1
- Date: Mon, 29 Sep 2025 10:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.918212
- Title: NeMo: Needle in a Montage for Video-Language Understanding
- Title(参考訳): NeMo:ビデオ言語理解のためのモンタージュに必要
- Authors: Zi-Yuan Hu, Shuo Liang, Duo Zheng, Yanyang Li, Yeyao Tao, Shijia Huang, Wei Feng, Jia Qin, Jianguang Yu, Jing Huang, Meng Fang, Yin Li, Liwei Wang,
- Abstract要約: ビデオ大言語モデル(VideoLLM)の最近の進歩は、ビデオ言語理解における複雑な時間的推論のための新しい評価プロトコルとベンチマークを求めている。
我々は,ビデオLLMの批判的推論能力を評価するために,NeMo(Needle in a Montage)という新しいタスクを導入した。
タスクを中心としたビデオ言語ベンチマークであるNeMoBenchを紹介します。
- 参考スコア(独自算出の注目度): 48.1703433263977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video large language models (VideoLLMs) call for new evaluation protocols and benchmarks for complex temporal reasoning in video-language understanding. Inspired by the needle in a haystack test widely used by LLMs, we introduce a novel task of Needle in a Montage (NeMo), designed to assess VideoLLMs' critical reasoning capabilities, including long-context recall and temporal grounding. To generate video question answering data for our task, we develop a scalable automated data generation pipeline that facilitates high-quality data synthesis. Built upon the proposed pipeline, we present NeMoBench, a video-language benchmark centered on our task. Specifically, our full set of NeMoBench features 31,378 automatically generated question-answer (QA) pairs from 13,486 videos with various durations ranging from seconds to hours. Experiments demonstrate that our pipeline can reliably and automatically generate high-quality evaluation data, enabling NeMoBench to be continuously updated with the latest videos. We evaluate 20 state-of-the-art models on our benchmark, providing extensive results and key insights into their capabilities and limitations. Our project page is available at: https://lavi-lab.github.io/NeMoBench.
- Abstract(参考訳): ビデオ大言語モデル(VideoLLM)の最近の進歩は、ビデオ言語理解における複雑な時間的推論のための新しい評価プロトコルとベンチマークを求めている。
長文リコールや時間的接地など,ビデオLLMの致命的推論能力を評価するため, ニードル・イン・ア・モンタージュ (NeMo) という新たなタスクを導入した。
タスクのためのビデオ質問応答データを生成するために,高品質なデータ合成を容易にするスケーラブルな自動データ生成パイプラインを開発した。
提案されたパイプラインに基づいて構築されたNeMoBenchは、タスクを中心としたビデオベンチマークです。
具体的には、NeMoBenchの全セットの31,378個のQAペアが13,486本のビデオから自動的に生成される。
実験では、パイプラインが確実に自動で高品質な評価データを生成し、最新のビデオでNeMoBenchを継続的に更新できることを示した。
ベンチマークで20の最先端モデルを評価し、その機能と制限に関する広範な結果と重要な洞察を提供する。
私たちのプロジェクトページは、https://lavi-lab.github.io/NeMoBench.orgで公開されています。
関連論文リスト
- Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? [51.45196331624591]
OVO-Benchは、高度なオンラインビデオ理解機能のための新しいベンチマークである。
12のタスクで構成され、644のユニークなビデオと、正確なタイムスタンプを備えた約2,800の細かいメタアノテーションで構成されている。
Video-LLMの9つの評価によると、従来のベンチマークの進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦戦している。
論文 参考訳(メタデータ) (2025-01-09T19:00:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。