論文の概要: Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning
- arxiv url: http://arxiv.org/abs/2605.14876v2
- Date: Fri, 15 May 2026 05:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:25.995647
- Title: Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning
- Title(参考訳): 閉ループ検証推論による複合視覚生成のアンロック
- Authors: Hanbo Cheng, Limin Lin, Ruo Zhang, Yicheng Pan, Jun Du,
- Abstract要約: Closed-Loop Visual Reasoning (CLVR)は、視覚言語論理計画とピクセルレベルの拡散生成を結合した総合システムである。
CLVRは、信頼性の高い推論軌跡を合成するためのステップレベルの視覚的検証を備えた自動データエンジンを導入している。
繰り返し復調による遅延ボトルネックを軽減するため,DSWM($$-Space Weight)を提案する。
- 参考スコア(独自算出の注目度): 11.461705552241163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose $Δ$-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.
- Abstract(参考訳): 急速な進歩にもかかわらず、現在のテキスト・ツー・イメージ(T2I)モデルは、複雑なセマンティクスに苦しむ単一ステップ生成パラダイムに大きく依存している。
最近のマルチステップ推論アプローチは有望であるが、検証の欠如、モノリシックなポストホックリフレクション、長いコンテキスト最適化の不安定性、推論の禁止といった未解決の幻覚によって妨げられている。
このようなボトルネックを克服するため,我々は,視覚言語論理計画と画素レベルの拡散生成とを深く結合する包括的システムであるClosed-Loop Visual Reasoning (CLVR) フレームワークを提案する。
CLVRは、信頼性の高い推論軌道を合成するためのステップレベルの視覚的検証を備えた自動データエンジンを導入し、インターリーブされたマルチモーダルヒストリーを正確な因果帰属のために明示的な報酬信号に蒸留することにより、長期コンテキスト最適化の不安定性を解決するためにPPRL(Proxy Prompt Reinforcement Learning)を提案する。
さらに, 反復脱臭による遅延ボトルネックを緩和するため, 既設蒸留法とアライメント重みを融合させる理論的な手法である$Δ$-Space Weight Merge (DSWM) を提案し, 高い再蒸留を必要とせず, ステップ当たりの推論コストを4NFEに削減した。
大規模な実験では、CLVRが既存のオープンソースベースラインを複数のベンチマークで上回り、プロプライエタリな商用モデルのパフォーマンスにアプローチし、複雑なビジュアル生成のための一般的なテストタイムスケーリング能力を解放している。
関連論文リスト
- PACE: Post-Causal Entropy Modeling for Learned LiDAR Point Cloud Compression [43.524231862354405]
LiDARポイントクラウド圧縮は、高解像度センサーから大量のデータを処理するために自律システムにとって不可欠である。
PACEは、祖先のコンテキストアグリゲーションを非因果バックボーンとして再構成し、因果関係を軽量でステージスケーラ可能な予測器に変換する新しいフレームワークである。
実験により、PACEは圧縮効率を新たな最先端に設定し、顕著なBD-BR節約を実現し、自動回帰モードで復号遅延を90%以上削減した。
論文 参考訳(メタデータ) (2026-05-02T08:36:11Z) - Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs [66.15429821530503]
Persistent Visual Memoryは、ビジュアルエビデンスへの持続的でオンデマンドアクセスを強化するために設計された、軽量の学習可能なモジュールである。
Qwen3-VLモデルの実験は、PVMが無視可能なパラメータオーバーヘッドで顕著な改善をもたらすことを示した。
詳細な分析により、PVMはより長い世代で堅牢性が向上し、内部予測収束が加速することが明らかとなった。
論文 参考訳(メタデータ) (2026-05-01T17:54:37Z) - SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Climber-Pilot: A Non-Myopic Generative Recommendation Model Towards Better Instruction-Following [19.550149895505683]
Climber-Pilotは統合された生成検索フレームワークである。
TAMIP(Time-Aware Multi-Item Prediction)は、遺伝的検索において固有の近視を緩和する新しいトレーニングパラダイムである。
また,ビジネス制約をスパース・アテンションを介して生成プロセスに直接組み込むコンディションガイド付きスパース・アテンション(CGSA)を提案する。
論文 参考訳(メタデータ) (2026-02-14T03:46:06Z) - Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection [17.79982215633934]
ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。
既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。
本稿では,Gatedコンテキストアグリゲーションを用いたフォワード整合学習を実現する軽量なVADモデルFoGAを紹介する。
論文 参考訳(メタデータ) (2026-01-26T04:35:31Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping [52.58270801983525]
投機的復号法(SD)は視覚ARモデルの高速化に有効であることが証明されている。
部分的検証スキップによる視覚AR生成を高速化する新しいフレームワークVVSを提案する。
論文 参考訳(メタデータ) (2025-11-17T16:50:58Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。