論文の概要: Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
- arxiv url: http://arxiv.org/abs/2511.16671v1
- Date: Thu, 20 Nov 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.815673
- Title: Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
- Title(参考訳): 思考時生成:ビジュアルジェネレーションを通してテキスト推論をインターリービングする
- Authors: Ziyu Guo, Renrui Zhang, Hongyu Li, Manyuan Zhang, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng,
- Abstract要約: Thinking- While-Generating (TwiG) は、視覚生成プロセスを通してテキスト推論を共進化させる最初のインターリーブドフレームワークである。
このフレームワークの可能性を明らかにするため、ゼロショットプロンプト、教師付き微調整、強化学習の3つの候補戦略について検討する。
- 参考スコア(独自算出の注目度): 79.31152006811438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual generation have increasingly explored the integration of reasoning capabilities. They incorporate textual reasoning, i.e., think, either before (as pre-planning) or after (as post-refinement) the generation process, yet they lack on-the-fly multimodal interaction during the generation itself. In this preliminary study, we introduce Thinking-while-Generating (TwiG), the first interleaved framework that enables co-evolving textual reasoning throughout the visual generation process. As visual content is progressively generating, textual reasoning is interleaved to both guide upcoming local regions and reflect on previously synthesized ones. This dynamic interplay produces more context-aware and semantically rich visual outputs. To unveil the potential of this framework, we investigate three candidate strategies, zero-shot prompting, supervised fine-tuning (SFT) on our curated TwiG-50K dataset, and reinforcement learning (RL) via a customized TwiG-GRPO strategy, each offering unique insights into the dynamics of interleaved reasoning. We hope this work inspires further research into interleaving textual reasoning for enhanced visual generation. Code will be released at: https://github.com/ZiyuGuo99/Thinking-while-Generating.
- Abstract(参考訳): 視覚生成の最近の進歩は、推論能力の統合を探求している。
それらはテキスト推論、すなわち、前(プレプランニング)か後(リファインメント)のどちらかを生成プロセスに組み込むが、生成中はオンザフライのマルチモーダル相互作用が欠如している。
本稿では,視覚生成過程を通じてテキスト推論の共進化を可能にする最初のインターリーブフレームワークであるThinking-while-Generating(TwiG)を紹介する。
視覚コンテンツが徐々に生成されるにつれて、テキスト推論は今後の地域を案内し、以前に合成されたものを反映する。
この動的な相互作用は、よりコンテキスト認識され、セマンティックにリッチな視覚出力を生成する。
このフレームワークの可能性を明らかにするために、我々は3つの候補戦略、ゼロショットプロンプト、キュレートされたTwiG-50Kデータセットの教師付き微調整(SFT)、カスタマイズされたTwiG-GRPO戦略による強化学習(RL)、それぞれがインターリーブ推論のダイナミクスに関するユニークな洞察を提供する。
この研究が、視覚生成の強化のためのテキスト推論のインターリーブに関するさらなる研究を促すことを願っている。
コードは、https://github.com/ZiyuGuo99/Thinking-while-Generating.comでリリースされる。
関連論文リスト
- Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - Image Content Generation with Causal Reasoning [17.89980837508069]
ChatGPTは、生成人工知能(GAI)の研究に再び火をつけた
視覚的モダリティでは、現在同等の研究は行われていない。
画像を用いた視覚質問応答(VQAI)という画像生成タスクを提案する。
論文 参考訳(メタデータ) (2023-12-12T10:07:16Z) - Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文 参考訳(メタデータ) (2022-10-07T18:01:09Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。