論文の概要: Visual Self-Refinement for Autoregressive Models
- arxiv url: http://arxiv.org/abs/2510.00993v1
- Date: Wed, 01 Oct 2025 15:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.629656
- Title: Visual Self-Refinement for Autoregressive Models
- Title(参考訳): 自己回帰モデルのための視覚的自己精製
- Authors: Jiamian Wang, Ziqi Zhou, Chaithanya Kumar Mummadi, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Chen Qiu, Zhiqiang Tao,
- Abstract要約: 本研究は,複雑な空間対応モデリングを強化するためのプラグ・アンド・プレイ・リファインメント・モジュールを提案する。
実験により,提案手法は生成品質を向上し,意味的に一貫した結果を生成するモデルの能力を向上させることを示した。
- 参考スコア(独自算出の注目度): 27.0373357661741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models excel in sequential modeling and have proven to be effective for vision-language data. However, the spatial nature of visual signals conflicts with the sequential dependencies of next-token prediction, leading to suboptimal results. This work proposes a plug-and-play refinement module to enhance the complex spatial correspondence modeling within the generated visual sequence. This module operates as a post-pretraining step to jointly refine all generated tokens of autoregressive model, enhancing vision-language modeling under a shared sequential prediction framework. By leveraging global context and relationship across the tokens, our method mitigates the error accumulation issue within the sequential generation. Experiments demonstrate that the proposed method improves the generation quality, enhancing the model's ability to produce semantically consistent results.
- Abstract(参考訳): 自己回帰モデルは逐次モデリングに優れており、視覚言語データに有効であることが証明されている。
しかし、視覚信号の空間的性質は、次トーケン予測の逐次的依存関係と矛盾し、準最適結果をもたらす。
本研究は、生成した視覚系列内の複雑な空間対応モデリングを強化するためのプラグ・アンド・プレイ・リファインメント・モジュールを提案する。
このモジュールは、自動回帰モデルの生成されたトークン全てを共同で洗練し、共有逐次予測フレームワークの下で視覚言語モデリングを強化するための、事前訓練後のステップとして機能する。
トークン間のグローバルコンテキストと関係を利用することで、逐次生成におけるエラー蓄積問題を緩和する。
実験により,提案手法は生成品質を向上し,意味的に一貫した結果を生成するモデルの能力を向上させることを示した。
関連論文リスト
- Composition and Alignment of Diffusion Models using Constrained Learning [79.36736636241564]
拡散モデルは、複雑な分布からサンプルを採取する能力により、生成的モデリングにおいて普及している。
i) 拡散モデルを微調整して報酬と整合させるアライメントと、(ii) 予め訓練された拡散モデルを組み合わせて、それぞれが生成した出力に望ましい属性を強調する合成である。
本稿では,共役モデルが報酬制約を満たすこと,あるいは(潜在的に複数の)事前学習モデルに近づき続けることを強制することによって,拡散モデルのアライメントと構成を統一する制約付き最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T15:06:30Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [56.30231216917128]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Rethinking Self-Supervision Objectives for Generalizable Coherence
Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。
タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。
本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文 参考訳(メタデータ) (2021-10-14T07:44:14Z) - Improving Sequential Latent Variable Models with Autoregressive Flows [30.053464816814348]
本稿では,自己回帰正規化フローに基づくシーケンスモデリングの改良手法を提案する。
結果は3つのベンチマークビデオデータセットで示され、自動回帰フローベースのダイナミックスがログライクなパフォーマンスを改善する。
論文 参考訳(メタデータ) (2020-10-07T05:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。