論文の概要: Interactive Video Corpus Moment Retrieval using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.09522v1
- Date: Sun, 19 Feb 2023 09:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:58:33.732991
- Title: Interactive Video Corpus Moment Retrieval using Reinforcement Learning
- Title(参考訳): 強化学習を用いた対話型ビデオコーパスモーメント検索
- Authors: Zhixin Ma and Chong-Wah Ngo
- Abstract要約: 本稿では,ユーザからのフィードバックから長期学習を行うことで,数ラウンド以内で検索対象に到達することを目的とした強化学習による課題に対処する。
我々は,ビデオコーパスモーメント検索(VCMR)の課題に対して,大規模なビデオコーパスからモーメントをローカライズする実験を行った。
- 参考スコア(独自算出の注目度): 35.38916770127218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Known-item video search is effective with human-in-the-loop to interactively
investigate the search result and refine the initial query. Nevertheless, when
the first few pages of results are swamped with visually similar items, or the
search target is hidden deep in the ranked list, finding the know-item target
usually requires a long duration of browsing and result inspection. This paper
tackles the problem by reinforcement learning, aiming to reach a search target
within a few rounds of interaction by long-term learning from user feedbacks.
Specifically, the system interactively plans for navigation path based on
feedback and recommends a potential target that maximizes the long-term reward
for user comment. We conduct experiments for the challenging task of video
corpus moment retrieval (VCMR) to localize moments from a large video corpus.
The experimental results on TVR and DiDeMo datasets verify that our proposed
work is effective in retrieving the moments that are hidden deep inside the
ranked lists of CONQUER and HERO, which are the state-of-the-art auto-search
engines for VCMR.
- Abstract(参考訳): 既知のビデオ検索は、検索結果をインタラクティブに調査し、初期クエリを洗練するために、Human-in-the-loopで有効である。
それでも、検索結果の最初の数ページが視覚的に類似したアイテムで沼されたり、検索対象がランクリストの奥深くに隠されたりすると、ノウイムのターゲットを見つけるのは通常、ブラウジングと結果検査の長い時間を要する。
本稿では,ユーザからのフィードバックから長期学習により,数ラウンドのインタラクションで検索対象に到達することを目的とした強化学習によってこの問題に取り組む。
具体的には、フィードバックに基づいてナビゲーションパスをインタラクティブに計画し、ユーザコメントに対する長期的な報酬を最大化する潜在的なターゲットを推奨する。
我々は,ビデオコーパスモーメント検索(VCMR)の課題に対して,大規模なビデオコーパスからモーメントをローカライズする実験を行った。
TVRとDiDeMoデータセットの実験結果から,VCMRの最先端のオートサーチエンジンであるCONQUERとHEROのランキングの奥深くに隠された瞬間の検索に有効なことが確認された。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Simple Baselines for Interactive Video Retrieval with Questions and
Answers [33.17722358007974]
本稿では,質問応答による対話型ビデオ検索のための,シンプルで効果的なベースラインを提案する。
ユーザインタラクションをシミュレートするためにビデオQAモデルを用い,対話型検索タスクの生産性向上を可能にすることを示す。
MSR-VTT, MSVD, AVSDによる実験により, 問合せに基づくインタラクションを用いたフレームワークは, テキストベースのビデオ検索システムの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-08-21T00:32:19Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Uncovering Hidden Challenges in Query-Based Video Moment Retrieval [29.90001703587512]
我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
論文 参考訳(メタデータ) (2020-09-01T10:07:23Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。