論文の概要: SOVC: Subject-Oriented Video Captioning
- arxiv url: http://arxiv.org/abs/2312.13330v2
- Date: Mon, 9 Sep 2024 10:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:42:43.773131
- Title: SOVC: Subject-Oriented Video Captioning
- Title(参考訳): SOVC: 主観的指向のビデオキャプション
- Authors: Chang Teng, Yunchuan Ma, Guorong Li, Yuankai Qi, Laiyu Qing, Qingming Huang,
- Abstract要約: 本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
- 参考スコア(独自算出の注目度): 59.04029220586337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Describing video content according to users' needs is a long-held goal. Although existing video captioning methods have made significant progress, the generated captions may not focus on the entity that users are particularly interested in. To address this problem, we propose a new video captioning task, Subject-Oriented Video Captioning (SOVC), which aims to allow users to specify the describing target via a bounding box. To support this task, we construct two subject-oriented video captioning datasets based on two widely used video captioning datasets: MSVD and MSRVTT, by annotating subjects in each video for each caption. These datasets pave the way for describing users' interested targets. To tackle this task, we introduce a method tailored to this task, named SOVCNet. It consists of two key components: a subject-oriented sampling module that samples frames related to the subject to minimize irrelevant information; and a subject-oriented encoding module that utilizes the subject areas as hard prompts and integrates learnable soft prompts, enhancing the model's focus on the subject's activities and facilitating adaptation to the downstream generation task. Extensive experimental results demonstrate the effectiveness of our method on this new task.
- Abstract(参考訳): ユーザのニーズに応じてビデオコンテンツを記述することは、長年の目標である。
既存の動画キャプション方式は大きな進歩を遂げているが、生成されたキャプションはユーザーが特に興味を持っているエンティティに焦点を当てていない可能性がある。
そこで本研究では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために,2つのビデオキャプションデータセット(MSVDとMSRVTT)をベースとして,各キャプション毎に各ビデオに注釈を付けることによって2つの動画キャプションデータセットを構築した。
これらのデータセットは、ユーザの関心のあるターゲットを記述するための道を開く。
この課題に対処するために,SOVCNetというタスクに適した手法を導入する。
被写体に関連するフレームをサンプリングして無関係な情報を最小化する主観的サンプリングモジュールと、被写体領域をハードプロンプトとして利用し、学習可能なソフトプロンプトを統合する主観的符号化モジュールと、モデルが被写体の活動に焦点を合わせ、下流生成タスクへの適応を促進するための主観的符号化モジュールとから構成される。
この課題に対する本手法の有効性を実験的に検証した。
関連論文リスト
- Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - Video Enriched Retrieval Augmented Generation Using Aligned Video Captions [1.0878040851638]
並べられた視覚キャプション」は、大きなコーパス内のビデオの視覚的および音声的内容を表す。
視覚的なキャプションは、オリジナルの基礎モデル/キャプタに特定の視覚的詳細や微調整を促すことで、特定のユースケースに適応することができる。
論文 参考訳(メタデータ) (2024-05-27T23:39:17Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Video Object of Interest Segmentation [27.225312139360963]
我々はVOIS (Video Object of interest segmentation) という新しいコンピュータビジョンタスクを提案する。
ビデオと対象画像が与えられた場合、対象画像に関連するすべてのオブジェクトを同時にセグメンテーションし、追跡することが目的である。
既存のデータセットはこの新しいタスクに完全に適合しないので、特にLiveVideosと呼ばれる大規模なデータセットを構築します。
論文 参考訳(メタデータ) (2022-12-06T10:21:10Z) - Visual Subtitle Feature Enhanced Video Outline Generation [23.831220964676973]
ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
ビデオアウトライン生成モデル(VSENet)を提案する。
論文 参考訳(メタデータ) (2022-08-24T05:26:26Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。