論文の概要: Video Caption Dataset for Describing Human Actions in Japanese
- arxiv url: http://arxiv.org/abs/2003.04865v1
- Date: Tue, 10 Mar 2020 17:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:25:23.416938
- Title: Video Caption Dataset for Describing Human Actions in Japanese
- Title(参考訳): 日本人における人間の行動記述のためのビデオ字幕データセット
- Authors: Yutaro Shigeto, Yuya Yoshikawa, Jiaqing Lin, Akikazu Takeuchi
- Abstract要約: 本稿では,人間の行動を記述するための日本語字幕の生成に焦点を当てる。
79,822本と399,233本からなる大規模ビデオキャプションデータセットを構築した。
データセットの各キャプションは、"誰が何をどこで何をするのか"という形式でビデオを記述する。
- 参考スコア(独自算出の注目度): 1.1470070927586014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, automatic video caption generation has attracted
considerable attention. This paper focuses on the generation of Japanese
captions for describing human actions. While most currently available video
caption datasets have been constructed for English, there is no equivalent
Japanese dataset. To address this, we constructed a large-scale Japanese video
caption dataset consisting of 79,822 videos and 399,233 captions. Each caption
in our dataset describes a video in the form of "who does what and where." To
describe human actions, it is important to identify the details of a person,
place, and action. Indeed, when we describe human actions, we usually mention
the scene, person, and action. In our experiments, we evaluated two caption
generation methods to obtain benchmark results. Further, we investigated
whether those generation methods could specify "who does what and where."
- Abstract(参考訳): 近年,自動字幕生成が注目されている。
本稿では,人間の行動を記述するための日本語字幕の生成に焦点をあてる。
現在利用可能なほとんどのビデオキャプションデータセットは英語で構築されているが、同等の日本語データセットはない。
そこで我々は,79,822本,399,233本からなる大規模日本ビデオキャプションデータセットを構築した。
データセットの各キャプションは、"誰がどこで何をするのか"という形式でビデオを記述する。
人間の行動を説明するには、人、場所、行動の詳細を特定することが重要である。
実際、人間の行動を説明するとき、通常、場面、人物、行動について言及する。
本実験では,2つのキャプション生成手法を評価し,ベンチマーク結果を得た。
さらに,これらの生成手法が「何をどこで行うか」を特定できるかどうかを検討した。
関連論文リスト
- Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Human-centric Behavior Description in Videos: New Benchmark and Model [37.96539992056626]
我々は,7,820人の動特性を詳細に記述した人間中心のビデオ監視キャプションデータセットを構築した。
このデータセットに基づいて、個人をそれぞれの行動に結びつけることができ、監視ビデオで各人の行動をさらに分析することができる。
論文 参考訳(メタデータ) (2023-10-04T15:31:02Z) - TVPR: Text-to-Video Person Retrieval and a New Benchmark [19.554989977778312]
テキスト・ツー・ビデオ・パーソン検索(TVPR)と呼ばれる新しいタスクを提案する。
TVPRNは、人物ビデオの視覚的および運動的表現を融合することにより、映像表現を取得する。
TVPRNはTVPReidデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-07-14T06:34:00Z) - Taking an Emotional Look at Video Paragraph Captioning [38.98567869515748]
本研究は,映像の段落レベルの記述を生成することを目標として,ビデオ段落のキャプションで実施する。
そこで本研究では,この課題に対して,大規模感情と論理駆動型多言語データセットを構築することを提案する。
このデータセットはEMVPCと名付けられ、毎日53件の広く使われている感情、これらの感情に対応する376件の一般的なシーン、10,291件の高品質ビデオ、20,582件の詳細な文節と英語と中国語のバージョンが含まれている。
論文 参考訳(メタデータ) (2022-03-12T06:19:48Z) - BERTHA: Video Captioning Evaluation Via Transfer-Learned Human
Assessment [16.57721566105298]
本稿では,映像キャプションシステムを評価するためのディープラーニングモデルに基づく新しい手法を提案する。
このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。
目的は、モデルが人間のものと似た評価を行うことを学習することである。
論文 参考訳(メタデータ) (2022-01-25T11:29:58Z) - MAD: A Scalable Dataset for Language Grounding in Videos from Movie
Audio Descriptions [109.84031235538002]
我々は、既存のビデオデータセットをテキストアノテーションで拡張するパラダイムから外れた、新しいベンチマークであるMAD(Movie Audio Descriptions)を提示する。
MADには1200時間以上のビデオに接地された384,000以上の自然言語文が含まれており、現在診断されているビデオ言語接地データセットのバイアスが大幅に減少している。
論文 参考訳(メタデータ) (2021-12-01T11:47:09Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。