論文の概要: V-Agent: An Interactive Video Search System Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.16925v2
- Date: Wed, 07 Jan 2026 06:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.44608
- Title: V-Agent: An Interactive Video Search System Using Vision-Language Models
- Title(参考訳): V-Agent:視覚言語モデルを用いた対話型ビデオ検索システム
- Authors: SunYoung Park, Jong-Hyeon Lee, Youngjune Kim, Daegyu Sung, Younghyun Yu, Young-rok Cha, Jeongho Ju,
- Abstract要約: V-Agentは、高度なビデオ検索と対話型ユーザシステム会話のために設計された、新しいマルチエージェントプラットフォームである。
提案フレームワークは,MultiVENT 2.0ベンチマークで最先端のゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 5.245473886566199
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce V-Agent, a novel multi-agent platform designed for advanced video search and interactive user-system conversations. By fine-tuning a vision-language model (VLM) with a small video preference dataset and enhancing it with a retrieval vector from an image-text retrieval model, we overcome the limitations of traditional text-based retrieval systems in multimodal scenarios. The VLM-based retrieval model independently embeds video frames and audio transcriptions from an automatic speech recognition (ASR) module into a shared multimodal representation space, enabling V-Agent to interpret both visual and spoken content for context-aware video search. This system consists of three agents-a routing agent, a search agent, and a chat agent-that work collaboratively to address user intents by refining search outputs and communicating with users. The search agent utilizes the VLM-based retrieval model together with an additional re-ranking module to further enhance video retrieval quality. Our proposed framework demonstrates state-of-the-art zero-shot performance on the MultiVENT 2.0 benchmark, highlighting its potential for both academic research and real-world applications. The retrieval model and demo videos are available at https://huggingface.co/NCSOFT/multimodal-embedding.
- Abstract(参考訳): V-Agentは、高度なビデオ検索と対話型ユーザシステム会話のために設計された、新しいマルチエージェントプラットフォームである。
視覚言語モデル(VLM)を小さなビデオ嗜好データセットで微調整し、画像テキスト検索モデルから検索ベクトルで拡張することにより、従来のテキストベース検索システムの制約を克服する。
VLMベースの検索モデルは、自動音声認識(ASR)モジュールからの映像フレームと音声の書き起こしを独立して共有マルチモーダル表現空間に埋め込み、V-Agentはコンテキスト対応のビデオ検索のために視覚的および音声的コンテンツの両方を解釈することができる。
本システムは3つのエージェント・エージェント・ルーティングエージェントと,検索エージェントとチャットエージェントから構成される。
検索エージェントは、VLMベースの検索モデルと追加のリランクモジュールを利用して、ビデオ検索品質をさらに向上する。
提案フレームワークは,MultiVENT 2.0ベンチマークで最先端のゼロショット性能を実証し,学術研究と実世界の両方の応用の可能性を強調した。
検索モデルとデモビデオはhttps://huggingface.co/NCSOFT/multimodal-embedding.comで公開されている。
関連論文リスト
- VIRTUE: Versatile Video Retrieval Through Unified Embeddings [6.517174336539377]
我々は,コーパスとモーメントレベル検索機能を統合したMLLMベースの多目的ビデオ検索フレームワークであるVIRTUEを提案する。
我々は,共有MLLMバックボーンを用いて生成した視覚的およびテキスト的埋め込みのコントラストアライメントを用いて,効率的な埋め込みベースの候補探索を容易にする。
我々の埋め込みモデルは,700K対のビジュアルテキストデータサンプル上でローランク適応(LoRA)を効果的に訓練し,ゼロショットビデオ検索タスクにおける他のMLLM手法を超越した。
論文 参考訳(メタデータ) (2026-01-17T23:13:38Z) - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.43882565434444]
VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。
まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。
次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
論文 参考訳(メタデータ) (2025-07-07T00:51:57Z) - MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。