論文の概要: Two Causally Related Needles in a Video Haystack
- arxiv url: http://arxiv.org/abs/2505.19853v1
- Date: Mon, 26 May 2025 11:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.390757
- Title: Two Causally Related Needles in a Video Haystack
- Title(参考訳): 動画『ヘイスタック』の中の2つの因果関係の針
- Authors: Miaoyu Li, Qin Chao, Boyang Li,
- Abstract要約: 本稿では,長期ビデオ中の2つの場所から情報を抽出し,共同で理解する能力を評価するベンチマークを提案する。
Caul2Needles氏は、長いビデオの中で、原因と影響の両方から情報を抽出する必要がある2-needleの質問を紹介している。
実験の結果,既存のベンチマークで優れているモデルでは,2-needleの視覚的接地が困難であることが判明した。
- 参考スコア(独自算出の注目度): 4.1753350239906295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating the video understanding capabilities of Video-Language Models (VLMs) remains a significant challenge. We propose a long-context video understanding benchmark, Causal2Needles, that assesses two crucial abilities insufficiently evaluated by existing benchmarks: (1) the ability to extract information from two separate locations in a long video and understand them jointly, and (2) the ability to model the world in terms of cause and effect in human behaviors. Specifically, Causal2Needles introduces 2-needle questions, which require extracting information from both the cause and effect human-behavior events in a long video and the associated narration text. To prevent textual bias, these questions comprise two complementary formats: one asking to identify the video clip containing the answer, and one asking for the textual description of an unrelated visual detail from that video clip. Our experiments reveal that models excelling in pre-existing benchmarks struggle with 2-needle visual grounding, and the model performance is negatively correlated with the distance between the two needles. These findings highlight critical limitations in current VLMs.
- Abstract(参考訳): VLM(Video-Language Models)の映像理解能力を評価することは依然として大きな課題である。
提案する長文ビデオ理解ベンチマークCausal2Needlesは,既存のベンチマークで不十分に評価された2つの重要な能力を評価するもので,(1)長ビデオ中の2つの場所から情報を抽出し,それらを共同で理解する能力,(2)人間の行動における原因や影響の観点から世界をモデル化する能力である。
具体的には、Causal2Needles氏は、長いビデオと関連するナレーションテキストにおいて、原因と影響の両方から情報を抽出する必要がある2-needleの質問を紹介している。
テキストバイアスを防ぐために、これらの質問は2つの補完的なフォーマットで構成されている。1つは、回答を含むビデオクリップを識別するよう求め、もう1つは、そのビデオクリップから無関係な視覚的詳細のテキスト記述を求める。
実験の結果,既存のベンチマークで優れているモデルでは2針の視覚的接地が困難であり,モデルの性能は2針間の距離と負の相関関係があることが判明した。
これらの知見は、現在のVLMの限界を浮き彫りにした。
関連論文リスト
- SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding [23.96372422130216]
ビデオベースのLarge Language Models (VideoVid-LLMs) は近年大きく進歩している。
彼らは細かな理解に苦しむが、特に視覚力学やビデオの詳細などの側面においてである。
これらの欠点に対処するため、自己監督的断片化タスクにおける細調整ビデオLLMは、そのきめ細かい映像理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T13:40:34Z) - Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions [3.9633773442108873]
本稿では,フレームレベルの字幕から得られる包括的情報を戦略的に活用するナレーション・ザ・ビデオ(NarVid)を提案する。
提案したNarVidは,ナレーションを複数の方法で活用する。1)ナレーションとビデオ間の相互モーダルな相互作用による機能強化,2)無関係あるいは不正な情報を抑制するためのクエリ対応適応フィルタリング,3)クエリ-動画類似度とクエリ-ナレーション類似度を付加したデュアルモーダルマッチングスコア。
論文 参考訳(メタデータ) (2025-03-07T07:15:06Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。