論文の概要: A Video Is Not Worth a Thousand Words
- arxiv url: http://arxiv.org/abs/2510.23253v1
- Date: Mon, 27 Oct 2025 12:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.540985
- Title: A Video Is Not Worth a Thousand Words
- Title(参考訳): ビデオは何千もの単語には値しない
- Authors: Sam Pollard, Michael Wray,
- Abstract要約: 複数選択のビデオ質問応答データセットの視覚言語モデルを評価する。
ビデオフレームと全テキスト要素を階層構造における同等の特徴とみなす。
この結果から,複数選択のVQAタスクはモデルが障害を無視する能力に発展することが示された。
- 参考スコア(独自算出の注目度): 9.163456072777679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As we become increasingly dependent on vision language models (VLMs) to answer questions about the world around us, there is a significant amount of research devoted to increasing both the difficulty of video question answering (VQA) datasets, and the context lengths of the models that they evaluate. The reliance on large language models as backbones has lead to concerns about potential text dominance, and the exploration of interactions between modalities is underdeveloped. How do we measure whether we're heading in the right direction, with the complexity that multi-modal models introduce? We propose a joint method of computing both feature attributions and modality scores based on Shapley values, where both the features and modalities are arbitrarily definable. Using these metrics, we compare $6$ VLM models of varying context lengths on $4$ representative datasets, focusing on multiple-choice VQA. In particular, we consider video frames and whole textual elements as equal features in the hierarchy, and the multiple-choice VQA task as an interaction between three modalities: video, question and answer. Our results demonstrate a dependence on text and show that the multiple-choice VQA task devolves into a model's ability to ignore distractors. Code available at https://github.com/sjpollard/a-video-is-not-worth-a-thousand-words.
- Abstract(参考訳): 視覚言語モデル(VLM)に頼り、周囲の世界に関する質問に答えるようになり、ビデオ質問応答(VQA)データセットの難しさと、それらが評価するモデルの文脈長の両方を増大させる研究が盛んに行われている。
バックボーンとしての大規模言語モデルへの依存は、潜在的テキスト支配への懸念を招き、モダリティ間の相互作用の探索は未開発である。
マルチモーダルモデルがもたらす複雑さによって、正しい方向に向かっているかどうかをどうやって測定しますか?
本稿では,特徴属性とモダリティスコアの両方をShapley値に基づいて計算し,特徴量とモダリティを任意に定義可能なジョイント手法を提案する。
これらの指標を用いて、さまざまなコンテキスト長の6ドルVLMモデルと4ドル代表データセットを比較し、複数選択VQAに焦点を当てた。
特に、ビデオフレームと全テキスト要素を階層構造における同等の特徴とみなし、多重選択VQAタスクを、ビデオ、質問、回答の3つのモード間の相互作用とみなす。
この結果から,複数選択のVQAタスクがモデルに委ねられ,散逸を無視する能力を持つことを示す。
コードはhttps://github.com/sjpollard/a-video-is-not-worth-a-thousand-wordsで公開されている。
関連論文リスト
- V$^2$Dial: Unification of Video and Visual Dialog via Multimodal Experts [44.33388344586592]
V$2$Dialは、マルチモーダルな会話タスクのための画像とビデオの入力データを同時に扱うための、エキスパートベースの新しいモデルである。
本稿では,画像とビデオの空間的特徴と時間的特徴を共同で学習する単一モデルを用いて,両方のタスクを統合することを提案する。
論文 参考訳(メタデータ) (2025-03-03T21:27:38Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Character Matters: Video Story Understanding with Character-Aware
Relations [47.69347058141917]
ビデオストーリー質問回答(VSQA)は、モデルのより高度な理解能力をベンチマークする効果的な方法を提供する。
現在のVSQAメソッドは、単にシーンから一般的な視覚的特徴を抽出するだけである。
本稿では,文字認識関係を改良する新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-05-09T06:51:13Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。