論文の概要: FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.01513v1
- Date: Sun, 04 Jan 2026 12:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.457274
- Title: FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation
- Title(参考訳): FastV-RAG:Retrieval-Augmented Generationによる高速かつ微細なビデオQAを目指して
- Authors: Gen Li, Peiyu Liu,
- Abstract要約: VideoSpeculateRAGは、2つの主要なアイデアに基づいて構築された効率的なVLMベースのRAGフレームワークである。
我々は、抽出された知識において、誤認識という大きなエラーの原因を識別する。
実験により、VideoSpeculateRAGは標準的なRAGアプローチと同等または高い精度を達成することが示された。
- 参考スコア(独自算出の注目度): 8.684174208244483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel at visual reasoning but still struggle with integrating external knowledge. Retrieval-Augmented Generation (RAG) is a promising solution, but current methods remain inefficient and often fail to maintain high answer quality. To address these challenges, we propose VideoSpeculateRAG, an efficient VLM-based RAG framework built on two key ideas. First, we introduce a speculative decoding pipeline: a lightweight draft model quickly generates multiple answer candidates, which are then verified and refined by a more accurate heavyweight model, substantially reducing inference latency without sacrificing correctness. Second, we identify a major source of error - incorrect entity recognition in retrieved knowledge - and mitigate it with a simple yet effective similarity-based filtering strategy that improves entity alignment and boosts overall answer accuracy. Experiments demonstrate that VideoSpeculateRAG achieves comparable or higher accuracy than standard RAG approaches while accelerating inference by approximately 2x. Our framework highlights the potential of combining speculative decoding with retrieval-augmented reasoning to enhance efficiency and reliability in complex, knowledge-intensive multimodal tasks.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的推論において優れているが、外部知識の統合に苦慮している。
Retrieval-Augmented Generation (RAG) は有望なソリューションであるが、現在の手法は非効率であり、しばしば高い応答品質を維持することができない。
これらの課題に対処するために,VLMベースの効率的なRAGフレームワークであるVideoSpeculateRAGを提案する。
まず、投機的復号化パイプラインを導入し、軽量なドラフトモデルで複数の解答候補を迅速に生成し、より正確な重み付けモデルで検証・精査し、精度を犠牲にすることなく推論遅延を大幅に低減する。
第二に、抽出された知識における誤ったエンティティ認識という、大きなエラー源を特定し、エンティティのアライメントを改善し、全体の回答精度を向上する単純な類似性に基づくフィルタリング戦略でそれを緩和する。
実験により、VideoSpeculateRAGは標準的なRAGアプローチと同等または高い精度で、推論を約2倍加速することが示された。
我々のフレームワークは、複雑な知識集約型マルチモーダルタスクにおいて、投機的復号化と検索強化推論を組み合わせることにより、効率と信頼性を高める可能性を強調している。
関連論文リスト
- ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。