論文の概要: Respond Beyond Language: A Benchmark for Video Generation in Response to Realistic User Intents
- arxiv url: http://arxiv.org/abs/2506.01689v1
- Date: Mon, 02 Jun 2025 13:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.416206
- Title: Respond Beyond Language: A Benchmark for Video Generation in Response to Realistic User Intents
- Title(参考訳): 言語を超えて応答する: リアルなユーザインテントに対するビデオ生成のベンチマーク
- Authors: Shuting Wang, Yunqi Liu, Zixin Yang, Ning Hu, Zhicheng Dou, Chenyan Xiong,
- Abstract要約: RealVideoQuestは、リアルタイムで視覚的に接地されたクエリに応答するテキスト・ツー・ビデオ(T2V)モデルの能力を評価するように設計されている。
ビデオ応答インテントで7.5Kの実際のユーザクエリを特定し、4.5Kの高品質なクエリとビデオのペアを構築する。
実験によると、現在のT2Vモデルは、実際のユーザクエリに効果的に対処するのに苦労している。
- 参考スコア(独自算出の注目度): 30.228721661677493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Querying generative AI models, e.g., large language models (LLMs), has become a prevalent method for information acquisition. However, existing query-answer datasets primarily focus on textual responses, making it challenging to address complex user queries that require visual demonstrations or explanations for better understanding. To bridge this gap, we construct a benchmark, RealVideoQuest, designed to evaluate the abilities of text-to-video (T2V) models in answering real-world, visually grounded queries. It identifies 7.5K real user queries with video response intents from Chatbot-Arena and builds 4.5K high-quality query-video pairs through a multistage video retrieval and refinement process. We further develop a multi-angle evaluation system to assess the quality of generated video answers. Experiments indicate that current T2V models struggle with effectively addressing real user queries, pointing to key challenges and future research opportunities in multimodal AI.
- Abstract(参考訳): 生成型AIモデル(例えば、大規模言語モデル(LLM))のクエリは、情報取得の一般的な方法となっている。
しかしながら、既存のクエリ回答データセットは主にテキスト応答に重点を置いているため、視覚的なデモンストレーションや説明を必要とする複雑なユーザクエリに対処することが難しい。
このギャップを埋めるために、実世界の視覚的に接地されたクエリに応答するテキスト・ツー・ビデオ(T2V)モデルの能力を評価するために設計されたベンチマークであるRealVideoQuestを構築した。
Chatbot-Arenaからビデオレスポンスインテントを備えた7.5Kの実際のユーザクエリを特定し、多段階のビデオ検索と改善プロセスを通じて4.5Kの高品質なクエリビデオペアを構築する。
さらに,生成した映像の質を評価するマルチアングル評価システムを開発した。
実験によると、現在のT2Vモデルは、マルチモーダルAIにおける重要な課題と将来の研究機会を指して、実際のユーザクエリに効果的に対処するのに苦労している。
関連論文リスト
- Vidi: Large Multimodal Models for Video Understanding and Editing [33.56852569192024]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。