論文の概要: Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2311.15841v5
- Date: Fri, 10 May 2024 08:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:27:06.843592
- Title: Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
- Title(参考訳): アクションカスタマイズテキスト・ツー・イメージ生成のためのアンタングル型識別器の学習
- Authors: Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang,
- Abstract要約: 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。
この課題の目的は、限られたデータから既存の行動を学び、それを見えない人間や動物に一般化することである。
- 参考スコア(独自算出の注目度): 34.11373539564126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study focuses on a novel task in text-to-image (T2I) generation, namely action customization. The objective of this task is to learn the co-existing action from limited data and generalize it to unseen humans or even animals. Experimental results show that existing subject-driven customization methods fail to learn the representative characteristics of actions and struggle in decoupling actions from context features, including appearance. To overcome the preference for low-level features and the entanglement of high-level features, we propose an inversion-based method Action-Disentangled Identifier (ADI) to learn action-specific identifiers from the exemplar images. ADI first expands the semantic conditioning space by introducing layer-wise identifier tokens, thereby increasing the representational richness while distributing the inversion across different features. Then, to block the inversion of action-agnostic features, ADI extracts the gradient invariance from the constructed sample triples and masks the updates of irrelevant channels. To comprehensively evaluate the task, we present an ActionBench that includes a variety of actions, each accompanied by meticulously selected samples. Both quantitative and qualitative results show that our ADI outperforms existing baselines in action-customized T2I generation. Our project page is at https://adi-t2i.github.io/ADI.
- Abstract(参考訳): 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。
この課題の目的は、限られたデータから既存の行動を学び、それを見えない人間や動物に一般化することである。
実験結果から,既存の主観的カスタマイズ手法では,行動の代表的な特徴を学習できず,外観を含む文脈的特徴から行動の疎結合に苦慮していることが明らかとなった。
低レベルの特徴の嗜好と高レベルの特徴の絡み合いを克服するため,従来の画像からアクション固有識別子を学習するための逆解析法であるADIを提案する。
ADIはまず、レイヤワイド識別子トークンを導入してセマンティックコンディショニング空間を拡張し、異なる特徴にまたがってインバージョンを分散しながら表現豊かさを増大させる。
そして、アクションに依存しない特徴の逆転を阻止するために、ADIは、構築されたサンプルトリプルから勾配不変性を抽出し、無関係チャネルの更新を隠蔽する。
タスクを包括的に評価するために、さまざまなアクションを含むActionBenchを、慎重に選択されたサンプルとともに提示する。
定量的および定性的な結果から,我々のADIは既存のT2I生成のベースラインより優れていたことが示唆された。
プロジェクトページはhttps://adi-t2i.github.io/ADI.com/。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Action Detection via an Image Diffusion Process [19.013962634522485]
アクション検出は、未トリミングビデオにおけるアクションインスタンスの開始点と終了点をローカライズすることを目的としている。
画像として開始点,終了点,行動クラスの予測を生成するために,3画像生成プロセスによる行動検出に取り組む。
我々のADI-Diffフレームワークは、広く使われている2つのデータセットに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-01T11:12:06Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。