論文の概要: Learning to Retrieve Videos by Asking Questions
- arxiv url: http://arxiv.org/abs/2205.05739v2
- Date: Fri, 13 May 2022 16:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 11:02:22.262752
- Title: Learning to Retrieve Videos by Asking Questions
- Title(参考訳): 質問によるビデオ検索の学習
- Authors: Avinash Madasu, Junier Oliva, Gedas Bertasius
- Abstract要約: 本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
- 参考スコア(独自算出の注目度): 29.046045230398708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The majority of traditional text-to-video retrieval systems operate in static
environments, i.e., there is no interaction between the user and the agent
beyond the initial textual query provided by the user. This can be suboptimal
if the initial query has ambiguities, which would lead to many falsely
retrieved videos. To overcome this limitation, we propose a novel framework for
Video Retrieval using Dialog (ViReD), which enables the user to interact with
an AI agent via multiple rounds of dialog. The key contribution of our
framework is a novel multimodal question generator that learns to ask questions
that maximize the subsequent video retrieval performance. Our multimodal
question generator uses (i) the video candidates retrieved during the last
round of interaction with the user and (ii) the text-based dialog history
documenting all previous interactions, to generate questions that incorporate
both visual and linguistic cues relevant to video retrieval. Furthermore, to
generate maximally informative questions, we propose an Information-Guided
Supervision (IGS), which guides the question generator to ask questions that
would boost subsequent video retrieval accuracy. We validate the effectiveness
of our interactive ViReD framework on the AVSD dataset, showing that our
interactive method performs significantly better than traditional
non-interactive video retrieval systems. Furthermore, we also demonstrate that
our proposed approach also generalizes to the real-world settings that involve
interactions with real humans, thus, demonstrating the robustness and
generality of our framework
- Abstract(参考訳): 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作する。
これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。
この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。
マルチモーダル質問生成器は
i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と
(ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。
さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guided supervisor)を提案する。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
さらに,提案手法は実際の人間との相互作用を含む現実世界の環境にも一般化し,枠組みの堅牢性や汎用性を実証する。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - iRAG: Advancing RAG for Videos with an Incremental Approach [3.486835161875852]
大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。
iRAGと呼ばれるインクリメンタルなRAGシステムを提案し、RAGを新たなインクリメンタルなワークフローで拡張し、ビデオデータのインタラクティブなクエリを可能にする。
iRAGは、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートするインクリメンタルワークフローでRAGを拡張する最初のシステムである。
論文 参考訳(メタデータ) (2024-04-18T16:38:02Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Social Commonsense-Guided Search Query Generation for Open-Domain
Knowledge-Powered Conversations [66.16863141262506]
本稿では,ソーシャルコモンセンスによってガイドされたインターネット検索クエリ生成に焦点を当てた新しいアプローチを提案する。
提案フレームワークは,トピックトラッキング,コモンセンス応答生成,命令駆動クエリ生成を統合することで,受動的ユーザインタラクションに対処する。
論文 参考訳(メタデータ) (2023-10-22T16:14:56Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Simple Baselines for Interactive Video Retrieval with Questions and
Answers [33.17722358007974]
本稿では,質問応答による対話型ビデオ検索のための,シンプルで効果的なベースラインを提案する。
ユーザインタラクションをシミュレートするためにビデオQAモデルを用い,対話型検索タスクの生産性向上を可能にすることを示す。
MSR-VTT, MSVD, AVSDによる実験により, 問合せに基づくインタラクションを用いたフレームワークは, テキストベースのビデオ検索システムの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-08-21T00:32:19Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。