論文の概要: The Role of Video Generation in Enhancing Data-Limited Action Understanding
- arxiv url: http://arxiv.org/abs/2505.19495v1
- Date: Mon, 26 May 2025 04:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.165114
- Title: The Role of Video Generation in Enhancing Data-Limited Action Understanding
- Title(参考訳): データ限定行動理解の促進における映像生成の役割
- Authors: Wei Li, Dezhao Luo, Dongbao Yang, Zhenhang Li, Weiping Wang, Yu Zhou,
- Abstract要約: 本稿では,テキスト・ビデオ拡散変換器を用いて,モデル学習のための注釈付きデータを生成する手法を提案する。
このパラダイムは、人間の介入なしに無限スケールで現実的な注釈付きデータを生成することを可能にする。
提案手法の有効性を5つのタスクにわたる4つのデータセットに示すとともに,ゼロショット動作認識のための最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.396160574102078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video action understanding tasks in real-world scenarios always suffer data limitations. In this paper, we address the data-limited action understanding problem by bridging data scarcity. We propose a novel method that employs a text-to-video diffusion transformer to generate annotated data for model training. This paradigm enables the generation of realistic annotated data on an infinite scale without human intervention. We proposed the information enhancement strategy and the uncertainty-based label smoothing tailored to generate sample training. Through quantitative and qualitative analysis, we observed that real samples generally contain a richer level of information than generated samples. Based on this observation, the information enhancement strategy is proposed to enhance the informative content of the generated samples from two aspects: the environments and the characters. Furthermore, we observed that some low-quality generated samples might negatively affect model training. To address this, we devised the uncertainty-based label smoothing strategy to increase the smoothing of these samples, thus reducing their impact. We demonstrate the effectiveness of the proposed method on four datasets across five tasks and achieve state-of-the-art performance for zero-shot action recognition.
- Abstract(参考訳): 実世界のシナリオにおけるビデオアクション理解タスクは、常にデータ制限に悩まされる。
本稿では,データ不足をブリッジすることで,データ制限された行動理解問題に対処する。
本稿では,テキスト・ビデオ拡散変換器を用いて,モデル学習のための注釈付きデータを生成する手法を提案する。
このパラダイムは、人間の介入なしに無限スケールで現実的な注釈付きデータを生成することを可能にする。
そこで我々は,サンプル学習のための情報強化戦略と不確実性に基づくラベル平滑化を提案する。
定量的および定性的な分析により,実検体は生成した検体よりも情報量が豊富であることがわかった。
本研究は,環境とキャラクタの2つの側面から生成したサンプルの情報内容を強化するための情報強調戦略を提案する。
さらに,低品質なサンプルがモデルトレーニングに悪影響を及ぼす可能性が示唆された。
そこで我々は,不確実性に基づくラベル平滑化戦略を考案し,サンプルの平滑化を増大させ,その影響を低減した。
提案手法の有効性を5つのタスクにわたる4つのデータセットに示すとともに,ゼロショット動作認識のための最先端性能を実現する。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - One-Shot Heterogeneous Federated Learning with Local Model-Guided Diffusion Models [40.83058938096914]
FedLMGは局所モデル誘導拡散モデルを用いた単発フェデレーション学習法である。
クライアントはファンデーションモデルにアクセスする必要はなく、ローカルモデルのトレーニングとアップロードのみを行う。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - Segue: Side-information Guided Generative Unlearnable Examples for
Facial Privacy Protection in Real World [64.4289385463226]
生成不可能な例としては、Segue: Side-information guided Generative unlearnable Exampleを提案する。
転送性を向上させるために,真のラベルや擬似ラベルなどの側面情報を導入する。
JPEG圧縮、敵対的トレーニング、およびいくつかの標準的なデータ拡張に抵抗することができる。
論文 参考訳(メタデータ) (2023-10-24T06:22:37Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Implicit Data Augmentation Using Feature Interpolation for Diversified
Low-Shot Image Generation [11.4559888429977]
生成モデルのトレーニングは、低データ設定で容易に発散することができる。
そこで本研究では,安定したトレーニングと多様なサンプルの合成を容易にする,新しい暗黙的データ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T23:55:46Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。