論文の概要: Seeing is Improving: Visual Feedback for Iterative Text Layout Refinement
- arxiv url: http://arxiv.org/abs/2603.22187v1
- Date: Mon, 23 Mar 2026 16:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.794192
- Title: Seeing is Improving: Visual Feedback for Iterative Text Layout Refinement
- Title(参考訳): Lookingが改善 - 反復テキストレイアウトリファインメントのためのビジュアルフィードバック
- Authors: Junrong Guo, Shancheng Fang, Yadong Qu, Hongtao Xie,
- Abstract要約: Visual Feedback Layout Model (VFLM)は、視覚フィードバックを反復的に改善するフレームワークである。
MLLM、既存のレイアウトモデル、コードのみのベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 46.546443161594304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have enabled automated generation of structured layouts from natural language descriptions. Existing methods typically follow a code-only paradigm that generates code to represent layouts, which are then rendered by graphic engines to produce final images. However, they are blind to the rendered visual outcome, making it difficult to guarantee readability and aesthetics. In this paper, we identify visual feedback as a critical factor in layout generation and propose Visual Feedback Layout Model (VFLM), a self-improving framework that leverages visual feedback iterative refinement. VFLM is capable of performing adaptive reflective generation, which leverages visual information to reflect on previous issues and iteratively generates outputs until satisfactory quality is achieved. It is achieved through reinforcement learning with a visually grounded reward model that incorporates OCR accuracy. By rewarding only the final generated outcome, we can effectively stimulate the model's iterative and reflective generative capabilities. Experiments across multiple benchmarks show that VFLM consistently outperforms advanced MLLMs, existing layout models, and code-only baselines, establishing visual feedback as critical for design-oriented MLLMs. Our code and data are available at https://github.com/FolSpark/VFLM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩により、自然言語記述から構造化レイアウトの自動生成が可能になった。
既存のメソッドは通常、レイアウトを表すコードを生成するコードのみのパラダイムに従っており、最終的なイメージを生成するためにグラフィックエンジンによってレンダリングされる。
しかし、彼らは視覚的な結果に盲目であり、可読性と美学を保証することは困難である。
本稿では,視覚フィードバックをレイアウト生成の重要な要因として認識し,視覚フィードバックの反復改善を活用した自己改善フレームワークであるVisual Feedback Layout Model (VFLM)を提案する。
VFLMは、視覚情報を利用して以前の問題を反映し、良好な品質に達するまで繰り返し出力を生成する適応反射生成を行うことができる。
OCRの精度を組み込んだ視覚的グラウンドの報酬モデルを用いて、強化学習によって達成される。
最終的な結果のみを報奨することで、モデルの反復的で反射的な生成能力を効果的に刺激することができる。
複数のベンチマーク実験により、VFLMは高度なMLLM、既存のレイアウトモデル、コードのみのベースラインを一貫して上回り、設計指向のMLLMにとって重要な視覚フィードバックを確立した。
私たちのコードとデータはhttps://github.com/FolSpark/VFLM.comで公開されています。
関連論文リスト
- Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。