論文の概要: AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
- arxiv url: http://arxiv.org/abs/2409.00342v3
- Date: Thu, 12 Sep 2024 03:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 20:59:43.829396
- Title: AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
- Title(参考訳): AdaNAT: トークンベースの画像生成のための適応ポリシーを探る
- Authors: Zanlin Ni, Yulin Wang, Renping Zhou, Rui Lu, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Yuan Yao, Gao Huang,
- Abstract要約: 非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
- 参考スコア(独自算出の注目度): 65.01527698201956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated the effectiveness of token-based methods for visual content generation. As a representative work, non-autoregressive Transformers (NATs) are able to synthesize images with decent quality in a small number of steps. However, NATs usually necessitate configuring a complicated generation policy comprising multiple manually-designed scheduling rules. These heuristic-driven rules are prone to sub-optimality and come with the requirements of expert knowledge and labor-intensive efforts. Moreover, their one-size-fits-all nature cannot flexibly adapt to the diverse characteristics of each individual sample. To address these issues, we propose AdaNAT, a learnable approach that automatically configures a suitable policy tailored for every sample to be generated. In specific, we formulate the determination of generation policies as a Markov decision process. Under this framework, a lightweight policy network for generation can be learned via reinforcement learning. Importantly, we demonstrate that simple reward designs such as FID or pre-trained reward models, may not reliably guarantee the desired quality or diversity of generated samples. Therefore, we propose an adversarial reward design to guide the training of policy networks effectively. Comprehensive experiments on four benchmark datasets, i.e., ImageNet-256 & 512, MS-COCO, and CC3M, validate the effectiveness of AdaNAT. Code and pre-trained models will be released at https://github.com/LeapLabTHU/AdaNAT.
- Abstract(参考訳): 近年,視覚コンテンツ生成のためのトークンベースの手法の有効性が実証されている。
代表的な作品として、非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
しかしながら、NATは通常、複数の手作業で設計されたスケジューリングルールを含む複雑な生成ポリシーを設定する必要がある。
これらのヒューリスティックなルールは、準最適になりがちで、専門家の知識と労働集約的な努力の要求が伴う。
さらに,各試料の多種多様な特性に柔軟に適応することは不可能である。
これらの問題に対処するため,各サンプルに適したポリシーを自動的に設定する学習可能なアプローチであるAdaNATを提案する。
具体的には、生成ポリシーの決定をマルコフ決定プロセスとして定式化する。
このフレームワークでは、強化学習を通じて、生成のための軽量なポリシーネットワークを学習することができる。
重要なことは、FIDや事前訓練された報酬モデルのような単純な報酬設計が、生成したサンプルの望ましい品質や多様性を確実に保証できないことを示しています。
そこで本稿では,政策ネットワークのトレーニングを効果的に指導する対人報酬設計を提案する。
ImageNet-256 & 512, MS-COCO, CC3Mの4つのベンチマークデータセットに関する総合的な実験は、AdaNATの有効性を検証する。
コードと事前トレーニングされたモデルはhttps://github.com/LeapLabTHU/AdaNAT.comでリリースされる。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis [82.72941975704374]
非自己回帰変換器(NAT)は、その急速な世代で認識されている。
トレーニング戦略と推論戦略の設計を再考することにより、NATの潜在能力を再評価する。
自動フレームワークで最適な戦略を直接解き、既存の手法を超えることを提案する。
論文 参考訳(メタデータ) (2024-06-08T13:52:20Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Stochastic Dynamic Power Dispatch with High Generalization and Few-Shot
Adaption via Contextual Meta Graph Reinforcement Learning [7.251065697936476]
高度に一般化された多段階最適ディスパッチポリシのためのコンテキストメタグラフ強化学習(Meta-GRL)を提案する。
異なるディスパッチシナリオのコンテキストを符号化し,下位ポリシー学習者がコンテキスト特定ディスパッチポリシーを学習している間に,ディスパッチタスク識別の方法を学ぶために,上位メタラーナを提案する。
十分なオフライン学習の後、このアプローチはメタラーナーによって生成された仮説の判断をわずかに上乗せするだけで、目に見えない、未定義のシナリオに迅速に適応することができる。
論文 参考訳(メタデータ) (2024-01-19T13:58:46Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - AMF: Adaptable Weighting Fusion with Multiple Fine-tuning for Image
Classification [14.05052135034412]
本稿では,各データサンプルの微調整戦略を適応的に決定する適応型マルチチューニング手法を提案する。
提案手法は,FGVC-Aircraft,Describable Textureのデータセットにおいて,1.69%,2.79%の精度で標準的な微調整手法より優れている。
論文 参考訳(メタデータ) (2022-07-26T14:50:03Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。
この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。
我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文 参考訳(メタデータ) (2021-01-06T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。