Fugu-MT 論文翻訳(概要): YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos

論文の概要: YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos

arxiv url: http://arxiv.org/abs/2004.05573v1
Date: Sun, 12 Apr 2020 09:25:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 05:02:46.298439
Title: YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos
Title（参考訳）: YouMakeup VQA Challenge: ドメイン特化ビデオにおけるきめ細かいアクション理解を目指して
Authors: Shizhe Chen, Weiying Wang, Ludan Ruan, Linli Yao, Qin Jin
Abstract要約: YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
参考スコア（独自算出の注目度）: 60.62475495522428
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of the YouMakeup VQA Challenge 2020 is to provide a common benchmark for fine-grained action understanding in domain-specific videos e.g. makeup instructional videos. We propose two novel question-answering tasks to evaluate models' fine-grained action understanding abilities. The first task is \textbf{Facial Image Ordering}, which aims to understand visual effects of different actions expressed in natural language to the facial object. The second task is \textbf{Step Ordering}, which aims to measure cross-modal semantic alignments between untrimmed videos and multi-sentence texts. In this paper, we present the challenge guidelines, the dataset used, and performances of baseline models on the two proposed tasks. The baseline codes and models are released at \url{https://github.com/AIM3-RUC/YouMakeup_Baseline}.
Abstract（参考訳）: YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオ(例えばメイクインストラクショナルビデオ)の詳細なアクション理解のための共通のベンチマークを提供することである。本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。最初のタスクは \textbf{Facial Image Ordering} で、自然言語で表現されたさまざまなアクションの視覚的効果を顔オブジェクトに理解することを目的としている。第2のタスクは \textbf{Step Ordering} で、未トリミングビデオとマルチ文テキスト間の相互意味的アライメントを測定することを目的としている。本稿では,提案する2つのタスクにおける課題ガイドライン,使用するデータセット,ベースラインモデルの性能について述べる。ベースラインコードとモデルは \url{https://github.com/AIM3-RUC/YouMakeup_Baseline} でリリースされる。

関連論文リスト

Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文参考訳（メタデータ） (2025-07-25T18:11:23Z)
Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness [6.634133253472436]
本稿では,動的表情キャプションに適した命令追従データセットを提案する。データセットは、5,033本の高品質なビデオクリップを手動で注釈付けし、70,000以上のトークンを含んでいる。また,このタスクにおける既存のビデオMLLMの性能を評価するためのベンチマークであるFEC-Benchを提案する。
論文参考訳（メタデータ） (2025-01-14T09:52:56Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-01T07:44:24Z)
SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文参考訳（メタデータ） (2023-12-20T17:44:32Z)
Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文参考訳（メタデータ） (2023-05-15T07:12:19Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文参考訳（メタデータ） (2022-12-16T05:10:09Z)
Exploiting Feature Diversity for Make-up Temporal Video Grounding [15.358540603177547]
本報告では,ACM MM 2022における第4回PICチャレンジで導入された第3回MTVGの勝利解について述べる。 MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。
論文参考訳（メタデータ） (2022-08-12T09:03:25Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)
Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文参考訳（メタデータ） (2020-07-02T13:02:54Z)
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文参考訳（メタデータ） (2020-03-31T05:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。