論文の概要: Subject-Oriented Video Captioning
- arxiv url: http://arxiv.org/abs/2312.13330v1
- Date: Wed, 20 Dec 2023 17:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:01:45.356170
- Title: Subject-Oriented Video Captioning
- Title(参考訳): 主題指向ビデオキャプション
- Authors: Yunchuan Ma, Chang Teng, Yuankai Qi, Guorong Li, Laiyu Qing, Qi Wu,
and Qingming Huang
- Abstract要約: そこで本稿では,提案するビデオキャプションタスクである主観的ビデオキャプションを提案する。
我々は、MSVDとMSRVTTという2つの広く使われているビデオキャプションデータセットに基づいて、2つの主題指向ビデオキャプションデータセットを構築した。
最初の試みとして、最先端の4つの一般的なビデオキャプションモデルを評価し、大きな性能低下を観測した。
- 参考スコア(独自算出の注目度): 64.08594243670296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Describing video content according to users' needs is a long-held goal.
Although existing video captioning methods have made significant progress, the
generated captions may not focus on the entity that users are particularly
interested in. To address this problem, we propose a new video captioning task,
subject-oriented video captioning, which allows users to specify the describing
target via a bounding box. To support this task, we construct two
subject-oriented video captioning datasets based on two widely used video
captioning datasets: MSVD and MSRVTT, by annotating subjects in each video for
each caption. These datasets pave the way for future technique development. As
the first attempt, we evaluate four state-of-the-art general video captioning
models, and have observed a large performance drop. We then explore several
strategies to enable them to describe the desired target. Experimental results
show obvious improvement, but there is still a large room for further
exploration in this field.
- Abstract(参考訳): ユーザのニーズに応じてビデオコンテンツを記述することは、長年の目標です。
既存の動画キャプション手法は大きな進歩を遂げているが、生成されたキャプションはユーザーが特に興味を持っているエンティティに焦点を合わせない可能性がある。
この問題に対処するために,提案する新しい映像キャプションタスクである主題指向ビデオキャプションを提案する。
この課題を支援するために,2つのビデオキャプションデータセット(MSVDとMSRVTT)をベースとして,各キャプション毎に各ビデオに注釈を付けることによって2つの動画キャプションデータセットを構築した。
これらのデータセットは将来の技術開発の道を開く。
最初の試みとして、最先端のビデオキャプションモデル4つを評価し、大きなパフォーマンス低下を観測した。
次に、望ましいターゲットを記述するためのいくつかの戦略を検討します。
実験の結果、明らかに改善が見られたが、この分野のさらなる調査の余地はまだ大きい。
関連論文リスト
- Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - Video Enriched Retrieval Augmented Generation Using Aligned Video Captions [1.0878040851638]
並べられた視覚キャプション」は、大きなコーパス内のビデオの視覚的および音声的内容を表す。
視覚的なキャプションは、オリジナルの基礎モデル/キャプタに特定の視覚的詳細や微調整を促すことで、特定のユースケースに適応することができる。
論文 参考訳(メタデータ) (2024-05-27T23:39:17Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Video Object of Interest Segmentation [27.225312139360963]
我々はVOIS (Video Object of interest segmentation) という新しいコンピュータビジョンタスクを提案する。
ビデオと対象画像が与えられた場合、対象画像に関連するすべてのオブジェクトを同時にセグメンテーションし、追跡することが目的である。
既存のデータセットはこの新しいタスクに完全に適合しないので、特にLiveVideosと呼ばれる大規模なデータセットを構築します。
論文 参考訳(メタデータ) (2022-12-06T10:21:10Z) - Visual Subtitle Feature Enhanced Video Outline Generation [23.831220964676973]
ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
ビデオアウトライン生成モデル(VSENet)を提案する。
論文 参考訳(メタデータ) (2022-08-24T05:26:26Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。