論文の概要: KARMA-MV: A Benchmark for Causal Question Answering on Music Videos
- arxiv url: http://arxiv.org/abs/2605.08175v1
- Date: Tue, 05 May 2026 06:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.426088
- Title: KARMA-MV: A Benchmark for Causal Question Answering on Music Videos
- Title(参考訳): KARMA-MV:音楽ビデオの因果質問のベンチマーク
- Authors: Archishman Ghosh, Abhinaba Roy, Dorien Herremans,
- Abstract要約: KARMA-MVは2,682本のYouTubeミュージックビデオから得られた大規模マルチチョイスQAデータセットである。
それは、時間的オーディオ・視覚的手がかりを統合する能力と、推論、予測、および反事実的質問にまたがる視覚・音楽的影響についての推論をモデルとしてテストする。
本稿では,相互依存の構造化検索による視覚言語モデルの拡張を目的とした因果知識グラフ(CKG)手法を提案する。
- 参考スコア(独自算出の注目度): 9.701474120381787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While significant progress has been made in Video Question Answering and cross-modal understanding, causal reasoning about how visual dynamics drive musical structure in music videos remains under-explored. We introduce KARMA-MV, a large-scale multiple-choice QA dataset derived from 2,682 YouTube music videos, designed to test models' ability to integrate temporal audio-visual cues and reason about visual-to-musical influence across reasoning, prediction, and counterfactual questions. Unlike traditional datasets requiring manual annotation, KARMA-MV leverages LLM reasoning for scalable generation and validation, yielding 37,737 MCQs. We propose a causal knowledge graph (CKG) approach that augments vision-language models (VLMs) with structured retrieval of cross-modal dependencies. Experiments on state-of-the-art VLMs and LLMs show consistent gains from CKG grounding -- especially for smaller models -- establishing the value of explicit causal structure for music-video reasoning. KARMA-MV provides a new benchmark for advancing causal audio-visual understanding beyond correlation.
- Abstract(参考訳): Video Question Answeringとクロスモーダルな理解では大きな進歩があったが、音楽ビデオにおける視覚力学がいかに音楽構造を駆動するかについての因果推論はいまだに未解明のままである。
KARMA-MVは2,682本のYouTubeミュージックビデオから派生した大規模マルチチョイスQAデータセットであり、時間的オーディオ・ビジュアル・キューを統合し、推論、予測、反ファクトの質問にまたがる視覚・音楽的影響を推論するモデルの能力をテストするように設計されている。
手動のアノテーションを必要とする従来のデータセットとは異なり、KARMA-MVはスケーラブルな生成と検証のためにLSM推論を活用し、37,737 MCQを生成する。
本稿では,視覚言語モデル(VLM)を改良し,モーダルな依存関係を構造化した因果知識グラフ(CKG)アプローチを提案する。
最先端のVLMとLLMの実験では、CKGの基盤(特に小型モデル)から一貫した利得が示され、音楽ビデオの推論における明確な因果構造の価値が確立された。
KARMA-MVは、相関を超えた因果的音声・視覚的理解を促進するための新しいベンチマークを提供する。
関連論文リスト
- Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - What Happens When: Learning Temporal Orders of Events in Videos [23.17822149091485]
Video Large Multimodal Models (VLMM) はビデオ理解において顕著な性能を示しているが、複数のイベントの時間順序を正確に把握する能力はいまだ探索されていない。
本稿では,イベントの時間的順序を識別するモデルの能力を明確に評価するために,VECTORを提案する。
本稿では,詳細なイベント・バイ・イベントの映像記述をモデルとしてトレーニングし,時間的意識を高めるために,推論時にチェーン・オブ・ソート・プロンプトを利用するMECOTを提案する。
論文 参考訳(メタデータ) (2025-12-05T07:50:59Z) - Multi-Modal Scene Graph with Kolmogorov-Arnold Experts for Audio-Visual Question Answering [47.06208819547327]
Kolmogorov-Arnold Expert Network for Audio-Visual Question Answering (SHRIKE) を用いたマルチモーダルシーングラフを提案する。
この課題は、映像シーンから情報を抽出し、融合させることによって、人間の推論を模倣することを目的としている。
MUSIC-AVQA と MUSIC-AVQA v2 のベンチマークを用いて,そのモデルの評価を行った。
論文 参考訳(メタデータ) (2025-11-28T16:03:23Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。