Fugu-MT 論文翻訳(概要): VCA: Video Curious Agent for Long Video Understanding

論文の概要: VCA: Video Curious Agent for Long Video Understanding

arxiv url: http://arxiv.org/abs/2412.10471v1
Date: Thu, 12 Dec 2024 23:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.626749
Title: VCA: Video Curious Agent for Long Video Understanding
Title（参考訳）: VCA:長いビデオ理解のためのビデオ・キュリオシティ・エージェント
Authors: Zeyuan Yang, Delin Chen, Xueyang Yu, Maohao Shen, Chuang Gan,
Abstract要約: VCAと呼ばれる自己探索機能を備えた好奇心駆動型ビデオエージェントを提案する。 VLM上に構築されたVCAは、ビデオセグメントを自律的にナビゲートし、複雑なビデオシーケンスの包括的な理解を効率的に構築する。
参考スコア（独自算出の注目度）: 44.19323180593379
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long video understanding poses unique challenges due to their temporal complexity and low information density. Recent works address this task by sampling numerous frames or incorporating auxiliary tools using LLMs, both of which result in high computational costs. In this work, we introduce a curiosity-driven video agent with self-exploration capability, dubbed as VCA. Built upon VLMs, VCA autonomously navigates video segments and efficiently builds a comprehensive understanding of complex video sequences. Instead of directly sampling frames, VCA employs a tree-search structure to explore video segments and collect frames. Rather than relying on external feedback or reward, VCA leverages VLM's self-generated intrinsic reward to guide its exploration, enabling it to capture the most crucial information for reasoning. Experimental results on multiple long video benchmarks demonstrate our approach's superior effectiveness and efficiency.
Abstract（参考訳）: 長いビデオ理解は、その時間的複雑さと情報密度の低さによって、ユニークな課題を生んでいる。最近の研究は、多数のフレームをサンプリングしたり、LCMを使って補助ツールを組み込んだりすることで、この課題に対処している。本稿では,VCAと呼ばれる自己探索機能を備えた好奇心駆動型ビデオエージェントを提案する。 VLM上に構築されたVCAは、ビデオセグメントを自律的にナビゲートし、複雑なビデオシーケンスの包括的な理解を効率的に構築する。フレームを直接サンプリングする代わりに、VCAはビデオセグメントの探索とフレームの収集にツリー検索構造を用いる。外部からのフィードバックや報酬に頼るのではなく、VCAはVLMの自己生成の本質的な報酬を活用して探索をガイドし、推論において最も重要な情報を捉えることができる。複数の長ビデオベンチマークによる実験結果から,提案手法の有効性と有効性が確認された。

関連論文リスト

VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文参考訳（メタデータ） (2025-08-05T03:33:24Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs [8.18451834099348]
我々の新しいビデオエージェントFALCONEyeは、VLMとLarge Language Model(LLM)を組み合わせて、ビデオ上の関連情報を検索し、そのフレームを答えとともに見つけ出す。実験の結果,FALCONEye は FALCON-Bench の最先端技術よりも優れた性能を示し,関連するベンチマークでは類似あるいは良好な性能を示した。
論文参考訳（メタデータ） (2025-03-25T17:17:19Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。 VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。 AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文参考訳（メタデータ） (2024-12-12T17:59:28Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。自律推論が可能なDivide-and-Conquer Loopを備えている。より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文参考訳（メタデータ） (2024-06-24T13:05:39Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。