論文の概要: YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in
Domain-Specific Videos
- arxiv url: http://arxiv.org/abs/2004.05573v1
- Date: Sun, 12 Apr 2020 09:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-14 05:02:46.298439
- Title: YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in
Domain-Specific Videos
- Title(参考訳): YouMakeup VQA Challenge: ドメイン特化ビデオにおけるきめ細かいアクション理解を目指して
- Authors: Shizhe Chen, Weiying Wang, Ludan Ruan, Linli Yao, Qin Jin
- Abstract要約: YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。
本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
- 参考スコア(独自算出の注目度): 60.62475495522428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of the YouMakeup VQA Challenge 2020 is to provide a common benchmark
for fine-grained action understanding in domain-specific videos e.g. makeup
instructional videos. We propose two novel question-answering tasks to evaluate
models' fine-grained action understanding abilities. The first task is
\textbf{Facial Image Ordering}, which aims to understand visual effects of
different actions expressed in natural language to the facial object. The
second task is \textbf{Step Ordering}, which aims to measure cross-modal
semantic alignments between untrimmed videos and multi-sentence texts. In this
paper, we present the challenge guidelines, the dataset used, and performances
of baseline models on the two proposed tasks. The baseline codes and models are
released at \url{https://github.com/AIM3-RUC/YouMakeup_Baseline}.
- Abstract(参考訳): YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオ(例えばメイクインストラクショナルビデオ)の詳細なアクション理解のための共通のベンチマークを提供することである。
本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
最初のタスクは \textbf{Facial Image Ordering} で、自然言語で表現されたさまざまなアクションの視覚的効果を顔オブジェクトに理解することを目的としている。
第2のタスクは \textbf{Step Ordering} で、未トリミングビデオとマルチ文テキスト間の相互意味的アライメントを測定することを目的としている。
本稿では,提案する2つのタスクにおける課題ガイドライン,使用するデータセット,ベースラインモデルの性能について述べる。
ベースラインコードとモデルは \url{https://github.com/AIM3-RUC/YouMakeup_Baseline} でリリースされる。
関連論文リスト
- DreamOmni2: Multimodal Instruction-based Editing and Generation [77.997848231822]
マルチモーダルな命令ベースの編集と生成という2つの新しいタスクを提案する。
これらのタスクはテキストとイメージの命令の両方をサポートし、具体的概念と抽象概念の両方を含むようにスコープを拡張する。
データ合成パイプラインは,(1)抽象的概念と具体的概念の両方の抽出データを作成するための特徴混合法,(2)編集と抽出モデルを用いたマルチモーダル命令ベースの編集訓練データを生成すること,(3)抽出モデルを適用してマルチモーダル命令ベースの編集のためのトレーニングデータを生成すること,の3つのステップで構成されている。
論文 参考訳(メタデータ) (2025-10-08T06:07:14Z) - Deforming Videos to Masks: Flow Matching for Referring Video Segmentation [46.416906762916305]
FlowRVSは、RVOSを条件付き連続フロー問題として再認識する新しいフレームワークである。
我々は,映像の全体像からターゲットマスクへの直接的,言語誘導的な変形を学習することにより,タスクを再構築する。
我々の一段階の生成的アプローチは、主要なRVOSベンチマーク全体にわたって、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-10-07T17:14:10Z) - UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models [12.21686773633269]
広範なコーパスで訓練された大規模言語モデルは、単一の生成フレームワーク内で多様な言語タスクを統一することに成功した。
このようなモデリングには、モダリティやソースをまたいだタスク固有の事前トレーニングが必要です。
タスク固有の変更なしに様々な視覚タスクを処理するために,ビデオ拡散変換器を微調整するフレームワークであるUniVidを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:43:40Z) - Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。
また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。
我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-07-25T18:11:23Z) - Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness [6.634133253472436]
本稿では,動的表情キャプションに適した命令追従データセットを提案する。
データセットは、5,033本の高品質なビデオクリップを手動で注釈付けし、70,000以上のトークンを含んでいる。
また,このタスクにおける既存のビデオMLLMの性能を評価するためのベンチマークであるFEC-Benchを提案する。
論文 参考訳(メタデータ) (2025-01-14T09:52:56Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Exploiting Feature Diversity for Make-up Temporal Video Grounding [15.358540603177547]
本報告では,ACM MM 2022における第4回PICチャレンジで導入された第3回MTVGの勝利解について述べる。
MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。
論文 参考訳(メタデータ) (2022-08-12T09:03:25Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。