論文の概要: VC-Agent: An Interactive Agent for Customized Video Dataset Collection
- arxiv url: http://arxiv.org/abs/2509.21291v1
- Date: Thu, 25 Sep 2025 15:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.018906
- Title: VC-Agent: An Interactive Agent for Customized Video Dataset Collection
- Title(参考訳): VC-Agent: カスタマイズされたビデオデータセットコレクションのためのインタラクティブエージェント
- Authors: Yidan Zhang, Mutian Xu, Yiming Hao, Kun Zhou, Jiahao Chang, Xiaoqiang Liu, Pengfei Wan, Hongbo Fu, Xiaoguang Han,
- Abstract要約: 本稿では,ユーザの質問やフィードバックを理解する対話型エージェントVC-Agentを提案する。
エージェント機能については,既存のマルチモーダルな大規模言語モデルを活用し,ユーザの要求をビデオコンテンツと結びつける。
我々は、パーソナライズされたビデオデータセット収集のための新しいベンチマークを提供し、様々な実シナリオにおけるエージェントの使用状況を検証するために、ユーザースタディを慎重に実施する。
- 参考スコア(独自算出の注目度): 48.65498668743145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facing scaling laws, video data from the internet becomes increasingly important. However, collecting extensive videos that meet specific needs is extremely labor-intensive and time-consuming. In this work, we study the way to expedite this collection process and propose VC-Agent, the first interactive agent that is able to understand users' queries and feedback, and accordingly retrieve/scale up relevant video clips with minimal user input. Specifically, considering the user interface, our agent defines various user-friendly ways for the user to specify requirements based on textual descriptions and confirmations. As for agent functions, we leverage existing multi-modal large language models to connect the user's requirements with the video content. More importantly, we propose two novel filtering policies that can be updated when user interaction is continually performed. Finally, we provide a new benchmark for personalized video dataset collection, and carefully conduct the user study to verify our agent's usage in various real scenarios. Extensive experiments demonstrate the effectiveness and efficiency of our agent for customized video dataset collection. Project page: https://allenyidan.github.io/vcagent_page/.
- Abstract(参考訳): スケーリングの法則に反し、インターネットからのビデオデータがますます重要になる。
しかし、特定のニーズを満たす広範なビデオを集めることは、非常に労働集約的で時間を要する。
本研究では,この収集プロセスの高速化について検討し,ユーザのクエリやフィードバックを最小限のユーザ入力で検索・スケールアップできる対話型エージェントVC-Agentを提案する。
具体的には,ユーザインタフェースを考慮し,テキスト記述や確認に基づいて,ユーザの要求を指定するためのさまざまなユーザフレンドリな方法を定義している。
エージェント機能については,既存のマルチモーダルな大規模言語モデルを活用し,ユーザの要求をビデオコンテンツと結びつける。
さらに,ユーザインタラクションが継続的に実行された場合に更新可能な2つの新しいフィルタリングポリシーを提案する。
最後に、パーソナライズされたビデオデータセット収集のための新しいベンチマークを提供し、さまざまな実シナリオにおけるエージェントの使用状況を検証するために、ユーザスタディを慎重に実施する。
ビデオデータセット収集のためのエージェントの有効性と有効性を示す大規模な実験を行った。
プロジェクトページ: https://allenyidan.github.io/vcagent_page/。
関連論文リスト
- CAViAR: Critic-Augmented Video Agentic Reasoning [90.48729440775223]
より複雑なビデオ推論を行うために、知覚能力を利用することができますか?
我々は,ビデオモジュールをサブエージェントやツールとして利用できる大規模言語モデルエージェントを開発した。
我々は,我々のエージェントと批評家の組み合わせが,データセット上で高い性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-09T17:59:39Z) - AppAgent-Pro: A Proactive GUI Agent System for Multidomain Information Integration and User Assistance [64.78994124332989]
AppAgent-Proは、ユーザ命令に基づいて複数のドメイン情報を積極的に統合するプロアクティブGUIエージェントシステムである。
AppAgent-Proは、日常生活における情報取得を根本的に再定義する可能性を秘めている。
論文 参考訳(メタデータ) (2025-08-26T05:23:24Z) - HIPPO-Video: Simulating Watch Histories with Large Language Models for Personalized Video Highlighting [27.92094212778288]
パーソナライズされたビデオハイライトのための新しいデータセットであるHIPPO-Videoを紹介する。
データセットには2,040対(履歴、給与スコア)が含まれており、170のセマンティックカテゴリにわたる20,400のビデオをカバーしている。
提案手法は,これらの個人化された時計履歴を利用して,嗜好条件付きセグメント・サリエンシスコアを推定する手法である。
論文 参考訳(メタデータ) (2025-07-22T08:24:33Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - IntentVizor: Towards Generic Query Guided Interactive Video
Summarization Using Slow-Fast Graph Convolutional Networks [2.5234156040689233]
IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。
ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
論文 参考訳(メタデータ) (2021-09-30T03:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。