論文の概要: POVQA: Preference-Optimized Video Question Answering with Rationales for Data Efficiency
- arxiv url: http://arxiv.org/abs/2510.01009v1
- Date: Wed, 01 Oct 2025 15:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.214817
- Title: POVQA: Preference-Optimized Video Question Answering with Rationales for Data Efficiency
- Title(参考訳): POVQA: データ効率の合理化による優先最適化ビデオ質問への回答
- Authors: Ashim Dahal, Ankit Ghimire, Saydul Akbar Murad, Nick Rahimi,
- Abstract要約: 近年,VQAタスクには1500以上のフレームのコンテキストウィンドウが設けられている。
データ効率のよいパイプラインであるPOVQAを導入し、ビデオの各秒を1つの時間プール画像に圧縮する。
- 参考スコア(独自算出の注目度): 3.4998703934432682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VQA) with Large Vision Language Models (LVLMs) has gained significant traction in research ever since the Flamingo was introduced by Deepmind. Recent advancements in large context/long video question answering have allowed VQA tasks to have context window of 1500+ frames. However, this only leads to 50 seconds of video footage without losing any significant information. We introduce POVQA, a data-efficient pipeline that compresses each second of video into a single temporally pooled image (via motion blur and weighted averaging variants) and then align LVLMs with lightweight supervision. Concretely, we build 1 fps input sources using Blend Blur with Last Frame, Weighted Average, Exponential and Ramp pooling and fine-tune QWEN-2.5-VL 7B with supervised two turn target including reasoning and final answer. We apply Supervised Fine Tuning (SFT) and Direct Preference Optimization (DPO) on our novel dataset ReasonVQA consisting of 12 movies with 239 human annotated question-answer with reasoning prompts. On our ReasonVQA dataset, this method dramatically improves performance over pooled baselines: F1 score improves from 0.212 to 0.543, BLEU-4 from 0.031 to 0.291, and ROUGE-L from 0.196 to 0.528. Rationale quality also significantly increases. Cross-evaluation of SFT + DPO on various pooling functions show that the gains persist regardless of the pooling scheme used at train or test time, indicating strong robustness on summarization of temporal evidence. Similar observations were made on zero-shot in TVQA.
- Abstract(参考訳): ビデオ質問回答(VQA)とLVLM(Large Vision Language Models)は、DeepmindによってFlamingoが導入されて以来、研究において大きな注目を集めている。
近年,VQAタスクには1500以上のフレームのコンテキストウィンドウが設けられている。
しかしこれは、重要な情報を失うことなく、ビデオの50秒にしか至らない。
データ効率のよいパイプラインであるPOVQAを導入し、ビデオの各秒を1つの時間的にプールした画像に圧縮し(動きのぼやけと重み付き平均変動)、LVLMを軽量に調整する。
具体的には、Blend Blur with Last Frame, Weighted Average, Exponential and Ramp pooling, fine-tune QWEN-2.5-VL 7B with supervised two turn target with the reasoning and final answer。
提案手法は,新たなデータセットReasonVQAにスーパーバイザード・ファイン・チューニング (SFT) とダイレクト・プライス・オプティマイゼーション (DPO) を適用した。
F1スコアは0.212から0.543、BLEU-4は0.031から0.291、ROUGE-Lは0.196から0.528である。
ランタリーの品質も著しく向上した。
各種プール機能におけるSFT + DPOの相互評価は、列車や試験時間におけるプール方式にかかわらず利得が持続していることを示し、時間的証拠の要約に強い堅牢性を示す。
同様の観測はTVQAでゼロショットで行われた。
関連論文リスト
- LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - T*: Re-thinking Temporal Search for Long-Form Video Understanding [66.72243342954823]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - FlashVTG: Feature Layering and Adaptive Score Handling Network for Video Temporal Grounding [25.21011724370177]
テキスト誘導ビデオ時間グラウンド(VTG)は、テキスト記述に基づいて、関連セグメントを未編集ビデオにローカライズすることを目的としている。
本稿では,TFL(Temporal Feature Layering)モジュールとASR(Adaptive Score Refinement)モジュールを備えたフレームワークであるFlashVTGを紹介する。
FlashVTGは、Moment Retrieval(MR)とHighlight Detection(HD)の両方で広く採用されている4つのデータセット上で、最先端のパフォーマンスを達成する
論文 参考訳(メタデータ) (2024-12-18T02:23:33Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Temporal Bilinear Encoding Network of Audio-Visual Features at Low
Sampling Rates [7.1273332508471725]
本稿では,映像分類における視聴覚情報の利用について,毎秒1フレームのサンプリングレートで検討する。
音声情報と視覚情報の両方を符号化するためのTBEN(temporal Bilinear Networks)を提案する。
論文 参考訳(メタデータ) (2020-12-18T14:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。