論文の概要: Interactive Video Corpus Moment Retrieval using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.09522v1
- Date: Sun, 19 Feb 2023 09:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:58:33.732991
- Title: Interactive Video Corpus Moment Retrieval using Reinforcement Learning
- Title(参考訳): 強化学習を用いた対話型ビデオコーパスモーメント検索
- Authors: Zhixin Ma and Chong-Wah Ngo
- Abstract要約: 本稿では,ユーザからのフィードバックから長期学習を行うことで,数ラウンド以内で検索対象に到達することを目的とした強化学習による課題に対処する。
我々は,ビデオコーパスモーメント検索(VCMR)の課題に対して,大規模なビデオコーパスからモーメントをローカライズする実験を行った。
- 参考スコア(独自算出の注目度): 35.38916770127218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Known-item video search is effective with human-in-the-loop to interactively
investigate the search result and refine the initial query. Nevertheless, when
the first few pages of results are swamped with visually similar items, or the
search target is hidden deep in the ranked list, finding the know-item target
usually requires a long duration of browsing and result inspection. This paper
tackles the problem by reinforcement learning, aiming to reach a search target
within a few rounds of interaction by long-term learning from user feedbacks.
Specifically, the system interactively plans for navigation path based on
feedback and recommends a potential target that maximizes the long-term reward
for user comment. We conduct experiments for the challenging task of video
corpus moment retrieval (VCMR) to localize moments from a large video corpus.
The experimental results on TVR and DiDeMo datasets verify that our proposed
work is effective in retrieving the moments that are hidden deep inside the
ranked lists of CONQUER and HERO, which are the state-of-the-art auto-search
engines for VCMR.
- Abstract(参考訳): 既知のビデオ検索は、検索結果をインタラクティブに調査し、初期クエリを洗練するために、Human-in-the-loopで有効である。
それでも、検索結果の最初の数ページが視覚的に類似したアイテムで沼されたり、検索対象がランクリストの奥深くに隠されたりすると、ノウイムのターゲットを見つけるのは通常、ブラウジングと結果検査の長い時間を要する。
本稿では,ユーザからのフィードバックから長期学習により,数ラウンドのインタラクションで検索対象に到達することを目的とした強化学習によってこの問題に取り組む。
具体的には、フィードバックに基づいてナビゲーションパスをインタラクティブに計画し、ユーザコメントに対する長期的な報酬を最大化する潜在的なターゲットを推奨する。
我々は,ビデオコーパスモーメント検索(VCMR)の課題に対して,大規模なビデオコーパスからモーメントをローカライズする実験を行った。
TVRとDiDeMoデータセットの実験結果から,VCMRの最先端のオートサーチエンジンであるCONQUERとHEROのランキングの奥深くに隠された瞬間の検索に有効なことが確認された。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - VCA: Video Curious Agent for Long Video Understanding [44.19323180593379]
VCAと呼ばれる自己探索機能を備えた好奇心駆動型ビデオエージェントを提案する。
VLM上に構築されたVCAは、ビデオセグメントを自律的にナビゲートし、複雑なビデオシーケンスの包括的な理解を効率的に構築する。
論文 参考訳(メタデータ) (2024-12-12T23:39:54Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Uncovering Hidden Challenges in Query-Based Video Moment Retrieval [29.90001703587512]
我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
論文 参考訳(メタデータ) (2020-09-01T10:07:23Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。