論文の概要: CourseTimeQA: A Lecture-Video Benchmark and a Latency-Constrained Cross-Modal Fusion Method for Timestamped QA
- arxiv url: http://arxiv.org/abs/2512.00360v1
- Date: Sat, 29 Nov 2025 07:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.193997
- Title: CourseTimeQA: A Lecture-Video Benchmark and a Latency-Constrained Cross-Modal Fusion Method for Timestamped QA
- Title(参考訳): CourseTimeQA: タイムスタンプ付きQAのための講義ビデオベンチマークとレイテンシ制約付きクロスモーダルフュージョン法
- Authors: Vsevolod Kovalev, Parteek Kumar,
- Abstract要約: 自然言語クエリが与えられたら、システムは関連するタイムスタンプのセグメントを検索し、接地された回答を合成する。
本稿では,CourseTimeQA (52.3 h, 902 querys across six courses) と,軽量で遅延に制約のあるクロスモーダルレトリバー (CrossFusion-RAG) を提案する。
CourseTimeQAでは、CrossFusion-RAGがnDCG@10を0.10、MRRを0.08、強力なBLIP-2レトリバーを0.55s、一方のA100上では1.55sのエンドツーエンドレイテンシを実現している。
- 参考スコア(独自算出の注目度): 3.0867286767516937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study timestamped question answering over educational lecture videos under a single-GPU latency/memory budget. Given a natural-language query, the system retrieves relevant timestamped segments and synthesizes a grounded answer. We present CourseTimeQA (52.3 h, 902 queries across six courses) and a lightweight, latency-constrained cross-modal retriever (CrossFusion-RAG) that combines frozen encoders, a learned 512->768 vision projection, shallow query-agnostic cross-attention over ASR and frames with a temporal-consistency regularizer, and a small cross-attentive reranker. On CourseTimeQA, CrossFusion-RAG improves nDCG@10 by 0.10 and MRR by 0.08 over a strong BLIP-2 retriever while achieving approximately 1.55 s median end-to-end latency on a single A100. Closest comparators (zero-shot CLIP multi-frame pooling; CLIP + cross-encoder reranker + MMR; learned late-fusion gating; text-only hybrid with cross-encoder reranking and its MMR variant; caption-augmented text retrieval; non-learned temporal smoothing) are evaluated under matched hardware and indexing. We report robustness across ASR noise (WER quartiles), diagnostics for temporal localization, and full training/tuning details to support reproducible comparison.
- Abstract(参考訳): 我々は,1GPUレイテンシ/メモリの予算の下で,教育ビデオに対するタイムスタンプによる質問応答について検討した。
自然言語クエリが与えられたら、システムは関連するタイムスタンプのセグメントを検索し、接地された回答を合成する。
凍結エンコーダと学習された512->768ビジョンプロジェクション,ASRおよびフレーム上の浅度クエリ非依存のクロスアテンション,時間整合正則化器,および小さなクロスアテンショナルリランカを組み合わせた軽量で遅延制約付きクロスモーダルレトリバー(CrossFusion-RAG)を提示する。
CourseTimeQAでは、CrossFusion-RAGがnDCG@10を0.10、MRRを0.08、強いBLIP-2レトリバーを0.55s、一方のA100では中央値のエンドツーエンドのレイテンシを実現している。
クローズトコンパレータ(ゼロショットCLIPマルチフレームプーリング、CLIP+クロスエンコーダリランカ+MMR)は、遅延融合ゲーティング、クロスエンコーダリグレード付きテキストのみハイブリッド、MMR変種、キャプション強化テキスト検索、非学習時スムーズ化)は、一致したハードウェアとインデックス化の下で評価される。
ASRノイズ(WER四成分)、時間的局所化診断、再現性比較を支援するための完全なトレーニング/チューニングの詳細を報告した。
関連論文リスト
- PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - Whisfusion: Parallel ASR Decoding via a Diffusion Transformer [7.327454599174306]
Whisfusionは、トレーニング済みのWhisperエンコーダをテキスト拡散デコーダで融合するフレームワークである。
パラメータ効率細調整(PEFT)によって訓練された軽量なクロスアテンションアダプタは、2つのモードをブリッジする。
LibriSpeech (960h)のみに微調整されたWhisfusionは、Whisper-tinyよりも低いWERを実現し、短いオーディオに匹敵するレイテンシを提供する。
論文 参考訳(メタデータ) (2025-08-09T17:20:54Z) - From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文 参考訳(メタデータ) (2025-06-05T17:31:17Z) - RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models [85.59909303288921]
大規模マルチモーダルモデル(LMM)の原子時間事象理解能力を評価するための新しいベンチマークRTime-QAを紹介する。
RTime-QAは822の高品質で慎重に編集されたビデオテキストの質問で構成されており、それぞれが人間の専門家によって慎重に注釈付けされている。
LMMの時間的事象理解能力を向上するために、RTime-QAと同様のアノテーションプロセスを利用する14k命令チューニングデータセットであるRTime-ITを導入する。
論文 参考訳(メタデータ) (2025-05-25T12:44:12Z) - A Flexible Recursive Network for Video Stereo Matching Based on Residual Estimation [0.9362376508480733]
RecSMはビデオステレオマッチングの残差推定に基づくネットワークである。
スタック数は3で、RecSMはACVNetと比較して4倍のスピード向上を実現し、1つのNVIDIA 2080TI GPUに基づいて0.054秒で実行される。
論文 参考訳(メタデータ) (2024-06-05T14:49:14Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。