論文の概要: YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in
Domain-Specific Videos
- arxiv url: http://arxiv.org/abs/2004.05573v1
- Date: Sun, 12 Apr 2020 09:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:02:46.298439
- Title: YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in
Domain-Specific Videos
- Title(参考訳): YouMakeup VQA Challenge: ドメイン特化ビデオにおけるきめ細かいアクション理解を目指して
- Authors: Shizhe Chen, Weiying Wang, Ludan Ruan, Linli Yao, Qin Jin
- Abstract要約: YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。
本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
- 参考スコア(独自算出の注目度): 60.62475495522428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of the YouMakeup VQA Challenge 2020 is to provide a common benchmark
for fine-grained action understanding in domain-specific videos e.g. makeup
instructional videos. We propose two novel question-answering tasks to evaluate
models' fine-grained action understanding abilities. The first task is
\textbf{Facial Image Ordering}, which aims to understand visual effects of
different actions expressed in natural language to the facial object. The
second task is \textbf{Step Ordering}, which aims to measure cross-modal
semantic alignments between untrimmed videos and multi-sentence texts. In this
paper, we present the challenge guidelines, the dataset used, and performances
of baseline models on the two proposed tasks. The baseline codes and models are
released at \url{https://github.com/AIM3-RUC/YouMakeup_Baseline}.
- Abstract(参考訳): YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオ(例えばメイクインストラクショナルビデオ)の詳細なアクション理解のための共通のベンチマークを提供することである。
本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
最初のタスクは \textbf{Facial Image Ordering} で、自然言語で表現されたさまざまなアクションの視覚的効果を顔オブジェクトに理解することを目的としている。
第2のタスクは \textbf{Step Ordering} で、未トリミングビデオとマルチ文テキスト間の相互意味的アライメントを測定することを目的としている。
本稿では,提案する2つのタスクにおける課題ガイドライン,使用するデータセット,ベースラインモデルの性能について述べる。
ベースラインコードとモデルは \url{https://github.com/AIM3-RUC/YouMakeup_Baseline} でリリースされる。
関連論文リスト
- VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Exploiting Feature Diversity for Make-up Temporal Video Grounding [15.358540603177547]
本報告では,ACM MM 2022における第4回PICチャレンジで導入された第3回MTVGの勝利解について述べる。
MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。
論文 参考訳(メタデータ) (2022-08-12T09:03:25Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。