論文の概要: Two Causally Related Needles in a Video Haystack
- arxiv url: http://arxiv.org/abs/2505.19853v2
- Date: Fri, 24 Oct 2025 09:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.950843
- Title: Two Causally Related Needles in a Video Haystack
- Title(参考訳): 動画『ヘイスタック』の中の2つの因果関係の針
- Authors: Miaoyu Li, Qin Chao, Boyang Li,
- Abstract要約: 長いビデオを理解するためにビデオ言語モデル(VLM)を評価するためのベンチマークを開発する。
実験の結果,既存のベンチマークに優れたモデルでは因果関係の問題に悩まされることがわかった。
これらの発見は、現在のビデオ言語モデルにおける重要な制限を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 8.819265332816867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Properly evaluating the ability of Video-Language Models (VLMs) to understand long videos remains a challenge. We propose a long-context video understanding benchmark, Causal2Needles, that assesses two crucial abilities insufficiently addressed by existing benchmarks: (1) extracting information from two separate locations (two needles) in a long video and understanding them jointly, and (2) modeling the world in terms of cause and effect in human behaviors. Causal2Needles evaluates these abilities using noncausal one-needle, causal one-needle, and causal two-needle questions. The most complex question type, causal two-needle questions, require extracting information from both the cause and effect events from a long video and the associated narration text. To prevent textual bias, we introduce two complementary question formats: locating the video clip containing the answer, and verbal description of a visual detail from that video clip. Our experiments reveal that models excelling on existing benchmarks struggle with causal 2-needle questions, and the model performance is negatively correlated with the distance between the two needles. These findings highlight critical limitations in current VLMs. The dataset is available at: https://huggingface.co/datasets/causal2needles/Causal2Needles
- Abstract(参考訳): 長いビデオを理解するためのビデオ言語モデル(VLM)の能力を適切に評価することは、依然として課題である。
提案する長文ビデオ理解ベンチマークCausal2Needlesは,(1)ビデオ中の2つの場所(2針)から情報を抽出し,共同で理解し,(2)人間の行動における原因と効果の観点から世界をモデル化する,既存のベンチマークで不十分な2つの重要な能力を評価する。
Causal2Needlesは、非因果関係、因果関係、因果関係の問題を用いてこれらの能力を評価する。
最も複雑な質問タイプである因果2つの質問は、長いビデオと関連するナレーションテキストから原因と影響の両方から情報を抽出する必要がある。
テキストのバイアスを避けるために,回答を含むビデオクリップの検索と,そのビデオクリップから視覚的詳細を言葉で記述する2つの相補的な質問形式を導入する。
実験の結果,既存のベンチマークに優れたモデルでは因果関係の問題に悩まされ,両針間の距離に負の相関が認められた。
これらの知見は、現在のVLMの限界を浮き彫りにした。
データセットは以下の通りである。 https://huggingface.co/datasets/causal2needles/Causal2Needles
関連論文リスト
- VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks [44.30048178589923]
本稿では,モデルの高度な映像理解と推論能力を高めるために設計された2つの新しいデータセットを紹介する。
我々は、Reason-Then-Respondパラダイムの下で、最初の多目的ビデオ理解および推論モデルであるVersaVid-R1を開発した。
論文 参考訳(メタデータ) (2025-06-10T03:57:53Z) - Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding [97.05584099530226]
MF$2$は、モデルがフル長の映画から重要な物語情報を理解し、統合し、思い出せるかどうかを評価するための新しいベンチマークである。
各ペアについて、モデルは真と偽のクレームの両方を正しく識別する必要がある。
実験の結果、オープンウェイトモデルとクローズド・オブ・ザ・アーティファクトモデルの両方が人間のパフォーマンスにかなり劣っていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T17:58:36Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding [23.96372422130216]
ビデオベースのLarge Language Models (VideoVid-LLMs) は近年大きく進歩している。
彼らは細かな理解に苦しむが、特に視覚力学やビデオの詳細などの側面においてである。
これらの欠点に対処するため、自己監督的断片化タスクにおける細調整ビデオLLMは、そのきめ細かい映像理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T13:40:34Z) - Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions [3.9633773442108873]
本稿では,フレームレベルの字幕から得られる包括的情報を戦略的に活用するナレーション・ザ・ビデオ(NarVid)を提案する。
提案したNarVidは,ナレーションを複数の方法で活用する。1)ナレーションとビデオ間の相互モーダルな相互作用による機能強化,2)無関係あるいは不正な情報を抑制するためのクエリ対応適応フィルタリング,3)クエリ-動画類似度とクエリ-ナレーション類似度を付加したデュアルモーダルマッチングスコア。
論文 参考訳(メタデータ) (2025-03-07T07:15:06Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。