論文の概要: Improving Chain-of-Thought Efficiency for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2510.05593v1
- Date: Tue, 07 Oct 2025 05:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.113797
- Title: Improving Chain-of-Thought Efficiency for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成におけるチェーン・オブ・ソート効率の改善
- Authors: Zeqi Gu, Markos Georgopoulos, Xiaoliang Dai, Marjan Ghazvininejad, Chu Wang, Felix Juefei-Xu, Kunpeng Li, Yujun Shi, Zecheng He, Zijian He, Jiawei Zhou, Abe Davis, Jialiang Wang,
- Abstract要約: 画像生成のための軽量な最適化フレームワークであるShortCoTIを紹介する。
ShortCoTIは、各タスクに対する推定困難度に応じてスケールする適応関数で、より簡潔なプロンプトを報酬する。
提案手法は冗長な説明と反復的な洗練を排除し,簡潔かつ意味的にリッチな推論プロンプトを生成する。
- 参考スコア(独自算出の注目度): 55.57836819892392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive multimodal large language models have recently gained popularity for image generation, driven by advances in foundation models. To enhance alignment and detail, newer approaches employ chain-of-thought (CoT) reasoning, expanding user inputs into elaborated prompts prior to image synthesis. However, this strategy can introduce unnecessary redundancy -- a phenomenon we call visual overthinking -- which increases computational costs and can introduce details that contradict the original prompt. In this work, we explore how to generate more concise CoT sequences for more efficient image generation. We introduce ShortCoTI, a lightweight optimization framework that encourages more concise CoT while preserving output image quality. ShortCoTI rewards more concise prompts with an adaptive function that scales according to an estimated difficulty for each task. Incorporating this reward into a reinforcement learning paradigm reduces prompt reasoning length by 54% while maintaining or slightly improving quality metrics across multiple benchmarks (T2I-CompBench, GenEval). Qualitative analysis shows that our method eliminates verbose explanations and repetitive refinements, producing reasoning prompts that are both concise and semantically rich. As a result, ShortCoTI improves computational efficiency without compromising the fidelity or visual appeal of generated images.
- Abstract(参考訳): 自己回帰型マルチモーダル型大規模言語モデルは,最近,基礎モデルの進歩によって画像生成に人気が高まっている。
アライメントとディテールを高めるために、新しいアプローチでは、イメージ合成の前にユーザー入力を精巧なプロンプトに拡張するチェーン・オブ・シント(CoT)推論を採用している。
しかし、この戦略は不要な冗長性、すなわち視覚的過度思考(visual overthinking)と呼ばれる現象を導入し、計算コストを増大させ、元のプロンプトと矛盾する詳細を導入することができる。
本研究では,より効率的な画像生成のために,より簡潔なCoTシーケンスを生成する方法について検討する。
我々は、出力画像の品質を維持しながら、より簡潔なCoTを促進する軽量な最適化フレームワークであるShortCoTIを紹介する。
ShortCoTIは、各タスクに対する推定困難度に応じてスケールする適応関数で、より簡潔なプロンプトを報酬する。
この報酬を強化学習パラダイムに組み込むことで、複数のベンチマーク(T2I-CompBench、GenEval)で品質指標をメンテナンスまたはわずかに改善しながら、プロンプト推論の長さを54%削減できる。
定性的な分析により,提案手法は冗長な説明や反復的な洗練を排除し,簡潔かつ意味的に豊かな推論のプロンプトを生成する。
その結果、ShortCoTIは、生成した画像の忠実さや視覚的魅力を損なうことなく、計算効率を向上させる。
関連論文リスト
- Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets [19.950913420708734]
本稿では,初期拡散段階における意味的類似性と共有性に基づいてクラスタが促進する学習自由アプローチを提案する。
提案手法は,既存のパイプラインとシームレスに統合し,プロンプトセットでスケールし,大規模テキスト・画像生成の環境・経済的負担を軽減する。
論文 参考訳(メタデータ) (2025-08-28T17:35:03Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、トーケン毎のプロンプト重量を適応的に調整することに基づく、単純で効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning [45.517215214938844]
チェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。
マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。