論文の概要: Mirai: Autoregressive Visual Generation Needs Foresight
- arxiv url: http://arxiv.org/abs/2601.14671v1
- Date: Wed, 21 Jan 2026 05:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.242594
- Title: Mirai: Autoregressive Visual Generation Needs Foresight
- Title(参考訳): Mirai: 自動回帰型ビジュアルジェネレーションの必要性
- Authors: Yonghao Yu, Lang Huang, Zerun Wang, Runyi Li, Toshihiko Yamasaki,
- Abstract要約: 自己回帰(AR)ビジュアルジェネレータは、画像を離散トークンのシーケンスとしてモデル化し、次のトークン確率でトレーニングする。
我々は、後続のトークンに由来する事前学習信号が、AR視覚生成に役立つかどうかを問う。
アーキテクチャの変更なしにARトレーニングに将来の情報を注入する一般的なフレームワークであるMiraiで、この洞察を定式化します。
- 参考スコア(独自算出の注目度): 28.342670562904445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) visual generators model images as sequences of discrete tokens and are trained with next token likelihood. This strict causality supervision optimizes each step only by its immediate next token, which diminishes global coherence and slows convergence. We ask whether foresight, training signals that originate from later tokens, can help AR visual generation. We conduct a series of controlled diagnostics along the injection level, foresight layout, and foresight source axes, unveiling a key insight: aligning foresight to AR models' internal representation on the 2D image grids improves causality modeling. We formulate this insight with Mirai (meaning "future" in Japanese), a general framework that injects future information into AR training with no architecture change and no extra inference overhead: Mirai-E uses explicit foresight from multiple future positions of unidirectional representations, whereas Mirai-I leverages implicit foresight from matched bidirectional representations. Extensive experiments show that Mirai significantly accelerates convergence and improves generation quality. For instance, Mirai can speed up LlamaGen-B's convergence by up to 10$\times$ and reduce the generation FID from 5.34 to 4.34 on the ImageNet class-condition image generation benchmark. Our study highlights that visual autoregressive models need foresight.
- Abstract(参考訳): 自己回帰(AR)ビジュアルジェネレータは、画像を離散トークンのシーケンスとしてモデル化し、次のトークン確率でトレーニングする。
この厳密な因果性監視は、各ステップをその直近の次のトークンによってのみ最適化し、グローバルな一貫性を低下させ、収束を遅くする。
我々は、後続のトークンに由来する事前学習信号が、AR視覚生成に役立つかどうかを問う。
我々は、インジェクションレベル、フォアサイトレイアウト、フォアサイトソース軸に沿って一連の制御された診断を行い、2Dイメージグリッド上のARモデルの内部表現にフォアサイトを合わせることで因果モデリングを改善するという重要な洞察を明らかにした。
我々はこの知見を,アーキテクチャ変更がなく,余分な推測オーバーヘッドも伴わないARトレーニングに将来の情報を注入する一般的なフレームワークであるMirai(日本語で「未来」を意味する)を用いて定式化する。
大規模な実験により、ミライは収束を著しく加速し、生成品質を向上することが示された。
例えば、Miraiは、ImageNetのクラス条件画像生成ベンチマークにおいて、LlamaGen-Bの収束を最大10$\times$でスピードアップし、生成FIDを5.34から4.34に削減できる。
我々の研究は、視覚的自己回帰モデルには注意が必要であることを強調している。
関連論文リスト
- What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - Prefilled responses enhance zero-shot detection of AI-generated images [2.6581858762749997]
我々は、AI生成画像のゼロショット検出のために、事前訓練された視覚言語モデル(VLM)を探索する。
人間の顔,物体,動物の合成画像を含む3つのベンチマークを用いて,VLMの性能を評価する。
特に「スタイルと合成アーティファクトを調べよう」というタスク対応のフレーズでVLM応答をプリフィルすると、3つの広く使われているオープンソースVLMのマクロF1スコアが最大24%向上する。
論文 参考訳(メタデータ) (2025-05-20T22:44:04Z) - VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。