Fugu-MT 論文翻訳(概要): SnAG: Scalable and Accurate Video Grounding

論文の概要: SnAG: Scalable and Accurate Video Grounding

arxiv url: http://arxiv.org/abs/2404.02257v2
Date: Fri, 5 Apr 2024 17:02:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 17:55:13.477669
Title: SnAG: Scalable and Accurate Video Grounding
Title（参考訳）: SnAG: スケーラブルで正確なビデオグラウンド
Authors: Fangzhou Mu, Sicheng Mo, Yin Li,
Abstract要約: ビデオにおけるテキスト記述の時間的基盤は、視覚言語学習とビデオ理解において中心的な問題である。ビデオグラウンドモデルのスケーラビリティに及ぼすクロスモーダル融合の影響について検討する。我々は、スケーラブルで正確なビデオグラウンドのためのシンプルなベースラインであるSnAGを提示する。
参考スコア（独自算出の注目度）: 10.578025234151596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal grounding of text descriptions in videos is a central problem in vision-language learning and video understanding. Existing methods often prioritize accuracy over scalability -- they have been optimized for grounding only a few text queries within short videos, and fail to scale up to long videos with hundreds of queries. In this paper, we study the effect of cross-modal fusion on the scalability of video grounding models. Our analysis establishes late fusion as a more cost-effective fusion scheme for long-form videos with many text queries. Moreover, it leads us to a novel, video-centric sampling scheme for efficient training. Based on these findings, we present SnAG, a simple baseline for scalable and accurate video grounding. Without bells and whistles, SnAG is 43% more accurate and 1.5x faster than CONE, a state of the art for long-form video grounding on the challenging MAD dataset, while achieving highly competitive results on short videos.
Abstract（参考訳）: ビデオにおけるテキスト記述の時間的基盤は、視覚言語学習とビデオ理解において中心的な問題である。既存の手法では、スケーラビリティよりも精度を優先することが多く、短いビデオ内に少数のテキストクエリを基盤として最適化されており、数百のクエリで長いビデオにスケールアップできない。本稿では,ビデオグラウンドモデルのスケーラビリティに及ぼすクロスモーダル融合の影響について検討する。本分析により,テキストクエリの多い長文ビデオのよりコスト効率の良い融合方式として,遅延融合が確立される。さらに、効率的なトレーニングのための、新しいビデオ中心のサンプリングスキームがもたらされる。これらの知見に基づき、スケーラブルで正確なビデオグラウンドティングのためのシンプルなベースラインであるSnAGを提示する。ベルとホイッスルがなければ、SnAGは、挑戦的なMADデータセットに基づくロングフォームビデオの最先端技術であるCONEよりも43%正確で1.5倍高速で、短いビデオで非常に競争力のある結果が得られる。

関連論文リスト

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文参考訳（メタデータ） (2025-08-06T13:03:21Z)
ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文参考訳（メタデータ） (2024-10-04T10:04:37Z)
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文参考訳（メタデータ） (2024-08-03T05:35:13Z)
DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文参考訳（メタデータ） (2024-06-18T17:59:03Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文参考訳（メタデータ） (2023-03-15T03:54:43Z)
CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文参考訳（メタデータ） (2022-09-22T10:58:42Z)
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文参考訳（メタデータ） (2022-03-29T17:43:01Z)
Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。 fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文参考訳（メタデータ） (2021-04-30T07:38:04Z)
Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文参考訳（メタデータ） (2020-03-31T14:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。