論文の概要: ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
- arxiv url: http://arxiv.org/abs/2510.11498v1
- Date: Mon, 13 Oct 2025 15:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.419258
- Title: ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
- Title(参考訳): ReLook: エージェントWebコーディングのためのマルチモーダルLLM批判を備えたビジョングラウンドRL
- Authors: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou,
- Abstract要約: ReLookはエージェント的で視覚的な強化学習フレームワークである。
エージェントが堅牢な生成-診断-リファインループをクローズする権限を与える。
ヴィジュアライズされたフロントエンドコード生成において、一貫して強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 35.30369059154906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.
- Abstract(参考訳): LLM(Large Language Models)はアルゴリズムコード生成に優れていますが、レンダリングされたピクセルやインタラクションに基づいて正確さを判断するフロントエンド開発に苦労しています。
本稿では,マルチモーダルLSM(MLLM)をツールとして呼び出すことにより,エージェントが堅牢な生成-診断-再定義ループを閉じることを可能にするエージェント型視覚基盤強化学習フレームワークであるReLookを提案する。
トレーニング中、エージェントはMLLM-in-the-loopをビジュアル批評家のコードとして使用し、スクリーンショットでマークすると同時に、実行可能で視覚的なフィードバックのソースとして使用する。
動作の崩壊を防止するため,修正のみを許容する厳格な受け入れ規則である強制最適化を導入し,単調に良好な軌道を導出する。
推論では、批判者を分離し、軽量で批判のないセルフ編集サイクルを実行し、ベースデコーディングに匹敵するレイテンシを維持しながら、ほとんどの利益を維持します。
広く使用されている3つのベンチマークの中で、ReLookは、視覚的なフロントエンドコード生成における強力なベースラインを一貫して上回り、エージェント認識、視覚的な報酬、トレーニングと推論の疎結合のメリットを強調している。
関連論文リスト
- Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification? [18.16727716373833]
マルチモーダル大言語モデル(MLLM)は、強力な汎用能力を示すが、細粒度視覚分類(FGVC)に苦戦している。
ReFine-RFTは、高精度なフィードバックを提供しながら、アンサンブル報酬をalgと組み合わせて推論長を制約するフレームワークである。
論文 参考訳(メタデータ) (2026-01-11T17:07:47Z) - ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing [33.888289858260706]
画像編集の質を向上させるために,強化学習(RL)について検討した。
RL は,(1) ノイズ除去に限定した推論探索,(2) バイアスド報酬融合,(3) 不安定な VLM ベースの命令報酬の3つの主要な課題に直面している。
画像合成から視覚的推論を分離する推論中心のRLフレームワークであるThinkRL-Editを提案する。
論文 参考訳(メタデータ) (2026-01-06T23:43:00Z) - Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion [0.0]
テキストから画像への拡散モデルにおける機械学習は、全体的な有用性を保ちながらターゲットとなる概念を取り除くことを目的としている。
本稿では,難読化を逐次決定過程として扱う拡散アンラーニングのための一般的なRLフレームワークを提案する。
我々のアルゴリズムは実装が簡単で、非政治的な再利用をサポートし、標準のテキスト・ツー・イメージのバックボーンにプラグインする。
論文 参考訳(メタデータ) (2026-01-06T17:52:02Z) - CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation [0.0]
CRAFT(Continuous Reasoning and Agentic Feedback Tuning)は、マルチモーダル画像生成に構造化推論パラダイムをもたらす、トレーニング不要でモデルに依存しないフレームワークである。
コンポジション精度、テキストレンダリング、好みに基づく評価を一貫して改善する。
これらの改善は無視できる推論時間のオーバーヘッドに過ぎず、より小型または安価なモデルでより高価なシステムの品質にアプローチすることができる。
論文 参考訳(メタデータ) (2025-12-23T13:44:41Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。
モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。
また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。