論文の概要: GPTSee: Enhancing Moment Retrieval and Highlight Detection via
Description-Based Similarity Features
- arxiv url: http://arxiv.org/abs/2403.01437v2
- Date: Sun, 10 Mar 2024 09:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:40:47.029921
- Title: GPTSee: Enhancing Moment Retrieval and Highlight Detection via
Description-Based Similarity Features
- Title(参考訳): GPTSee: 記述に基づく類似機能によるモーメント検索とハイライト検出の強化
- Authors: Yunzhuo Sun, Yifang Xu, Zien Xie, Yukun Shu, and Sidan Du
- Abstract要約: モーメント検索(MR)とハイライト検出(HD)は、自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。
MR&HDの既存の手法はまだ大きな言語モデルと統合されていない。
本稿では,LLMの出力を第2段変換器エンコーダ・デコーダの入力とする2段階モデルを提案する。
- 参考スコア(独自算出の注目度): 1.614471032380076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moment retrieval (MR) and highlight detection (HD) aim to identify relevant
moments and highlights in video from corresponding natural language query.
Large language models (LLMs) have demonstrated proficiency in various computer
vision tasks. However, existing methods for MR\&HD have not yet been integrated
with LLMs. In this letter, we propose a novel two-stage model that takes the
output of LLMs as the input to the second-stage transformer encoder-decoder.
First, MiniGPT-4 is employed to generate the detailed description of the video
frame and rewrite the query statement, fed into the encoder as new features.
Then, semantic similarity is computed between the generated description and the
rewritten queries. Finally, continuous high-similarity video frames are
converted into span anchors, serving as prior position information for the
decoder. Experiments demonstrate that our approach achieves a state-of-the-art
result, and by using only span anchors and similarity scores as outputs,
positioning accuracy outperforms traditional methods, like Moment-DETR.
- Abstract(参考訳): モーメント検索(MR)とハイライト検出(HD)は、対応する自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。
大型言語モデル (LLM) は様々なコンピュータビジョンタスクに習熟性を示す。
しかし、MR\&HDの既存の手法はまだLLMと統合されていない。
本稿では,llmsの出力を第2段トランスコーダ・デコーダへの入力とする,新しい2段モデルを提案する。
まず、MiniGPT-4を用いてビデオフレームの詳細な記述を生成し、エンコーダに入力されたクエリ文を新しい機能として書き直す。
そして、生成された記述と書き直されたクエリの間で意味的類似性が計算される。
最後に、連続的な高相似性映像フレームをスパンアンカーに変換し、デコーダの位置情報として機能させる。
また,スパンアンカーと類似度スコアのみを出力として用いることにより,モーメントデトルのような従来の手法よりも位置決め精度が優れていることを示す実験を行った。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。
本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。
大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文 参考訳(メタデータ) (2024-05-21T07:12:27Z) - TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and
Highlight Detection [9.032057312774564]
自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、非常に関連性の高い2つのタスクである。
MRとHDを共同で解くために、DETRベースのネットワークの構築にいくつかの方法が注がれている。
MRとHDの相反性を探索するDETR(TR-DETR)に基づくタスク相互変換器を提案する。
論文 参考訳(メタデータ) (2024-01-04T14:55:57Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。