Fugu-MT 論文翻訳(概要): Exploiting Feature Diversity for Make-up Temporal Video Grounding

論文の概要: Exploiting Feature Diversity for Make-up Temporal Video Grounding

arxiv url: http://arxiv.org/abs/2208.06179v1
Date: Fri, 12 Aug 2022 09:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-15 12:54:33.507776
Title: Exploiting Feature Diversity for Make-up Temporal Video Grounding
Title（参考訳）: 時間的ビデオグラウンド作成のための爆発的特徴多様性
Authors: Xiujun Shu, Wei Wen, Taian Guo, Sunan He, Chen Wu, Ruizhi Qiao
Abstract要約: 本報告では,ACM MM 2022における第4回PICチャレンジで導入された第3回MTVGの勝利解について述べる。 MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。
参考スコア（独自算出の注目度）: 15.358540603177547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This technical report presents the 3rd winning solution for MTVG, a new task introduced in the 4-th Person in Context (PIC) Challenge at ACM MM 2022. MTVG aims at localizing the temporal boundary of the step in an untrimmed video based on a textual description. The biggest challenge of this task is the fi ne-grained video-text semantics of make-up steps. However, current methods mainly extract video features using action-based pre-trained models. As actions are more coarse-grained than make-up steps, action-based features are not sufficient to provide fi ne-grained cues. To address this issue,we propose to achieve fi ne-grained representation via exploiting feature diversities. Specifically, we proposed a series of methods from feature extraction, network optimization, to model ensemble. As a result, we achieved 3rd place in the MTVG competition.
Abstract（参考訳）: 本技術報告では,ACM MM 2022における第4回PICチャレンジで導入された,第3回MTVGの勝利解を示す。 MTVGは,テキスト記述に基づくビデオ中のステップの時間的境界のローカライズを目的としている。このタスクの最大の課題は、メイクアップステップの細かなビデオテキストセマンティクスである。しかし、現在の手法は主にアクションベース事前学習モデルを用いて映像特徴を抽出する。アクションはメイクアップステップよりも粗い粒度であるため、アクションベースの特徴は fi ne-fine cues を提供するのに十分ではない。この問題に対処するため,我々は,特徴の多様性を生かしてfi ne粒度表現を実現することを提案する。具体的には,特徴抽出,ネットワーク最適化,モデルアンサンブルなど,一連の手法を提案する。その結果,MTVG大会では3位となった。

関連論文リスト

UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
Video Action Differencing [92.3218782696305]
我々は、同じアクションのビデオ間の微妙な違いを識別する新しいタスクである、ビデオアクションダイファレンス(VidDiff)を紹介する。最初に、549のビデオペアを含むベンチマークデータセットであるVidDiffBenchを作成します。我々の実験は、VidDiffBenchが最先端の大規模マルチモーダルモデルに重大な課題をもたらすことを示した。
論文参考訳（メタデータ） (2025-03-10T21:18:32Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文参考訳（メタデータ） (2024-03-25T07:54:18Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
Dual-Path Temporal Map Optimization for Make-up Temporal Video Grounding [34.603577827106875]
メイクアップ時間的ビデオグラウンドニングは、長いビデオが与えられた場合の、メイクアップアクティビティを記述する文に意味的に関連のあるターゲットビデオセグメントをローカライズすることを目的としている。既存の一般的なアプローチでは、標的となるアクティビティを効果的に見つけることはできない。本稿では,DPTMO (Dual-Path Temporal Map Optimization Network) という提案に基づく効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-12T12:43:50Z)
Technical Report for Ego4D Long Term Action Anticipation Challenge 2023 [0.0]
我々は,2023年のEgo4D長期行動予測チャレンジの技術的詳細を説明する。このタスクの目的は、入力ビデオから任意のタイミングで発生する未来のアクションのシーケンスを予測することである。提案手法は, ベースライン性能を向上し, 公開リーダボード上の第2位ソリューションとして記録した。
論文参考訳（メタデータ） (2023-07-04T04:12:49Z)
Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022 Technical Report [42.49264486550348]
本研究では,その微粒な句と文全体に関連する時間的局所化関係を利用するフレーズ関係マイニングフレームワークを提案する。さらに,異なるステップ文クエリの局所化結果を重なり合わないように制約することを提案する。最終候補は第2位で、第1位と0.55%の差しかなかった。
論文参考訳（メタデータ） (2022-07-06T13:50:34Z)
Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文参考訳（メタデータ） (2022-06-27T06:48:15Z)
Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文参考訳（メタデータ） (2020-06-27T09:39:04Z)
YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos [60.62475495522428]
YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
論文参考訳（メタデータ） (2020-04-12T09:25:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。