論文の概要: Agentic Planning with Reasoning for Image Styling via Offline RL
- arxiv url: http://arxiv.org/abs/2603.07148v1
- Date: Sat, 07 Mar 2026 11:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.903781
- Title: Agentic Planning with Reasoning for Image Styling via Offline RL
- Title(参考訳): オフラインRLによる画像スティリングのための推論によるエージェントプランニング
- Authors: Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee,
- Abstract要約: 直接的なプロンプトベースの編集は複雑な変換では失敗するが、なぜなら曖昧で主観的なプロンプトは、画像に何を変更するべきかを微妙に理解する必要がしばしばあるからである。
ツールベースのエージェントRLポストトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.10749901925941
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each $\sim$10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.
- Abstract(参考訳): 直接的なプロンプトベースの編集は複雑な変換に失敗することが多く、曖昧で主観的なプロンプトは画像に何を変更するべきかを微妙に理解する必要がある。
私たちの中核的な直感は、構成的画像編集ツールを活用することで、明示的な推論による構造化されたエージェントレベルの計画から利益を直接的に促すのではなく、より良い結果をもたらすことです。
この構造化された計画フレームワークは、高品質な軌道上での効率的なオフラインRLポストトレーニングを可能にし、性能を向上させる。
ツールベースのエージェントRLポストトレーニングフレームワークを提案する。
1) 複雑なスタイリングを解釈可能なツールシーケンスに分解するための,直交プリミティブ変換の合成ライブラリ,構造化コンテキスト表現,明示的なステップごとの推論を組み合わせたツールベースのエージェント計画手法。
2)3つの大規模データセット(それぞれ$\sim$10Kトラジェクトリ)を生成する合成データ生成パイプライン。
私たちのデータセットとコードは、HuggingFaceリポジトリで公開されています。
(3) 計画立案者の学習のためのオフラインRLトレーニング手法は,我々の中心となるアルゴリズム的貢献として,視覚的品質と指導の基準線であるEdit-Onlyよりも一貫して改善されている。
(4) 4B および 8B パラメータ Qwen3-VL モデルにおける包括的評価は,本手法が構成課題の大部分において他の基準よりも優れており,人間の評価によって検証されている。
関連論文リスト
- Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models [45.28250076657801]
Long Chain-of-Thought (LCoT) は,Large Language Models (LLM) の推論能力の向上に有効であることが証明されている。
RLVRベースの最適化にもかかわらず、既存の手法はいまだに粗大な監督、報酬のハッキング、高いトレーニングコスト、一般化の欠如に悩まされている。
ステップレベルの認知ラベルを持つグラフ構造化表現を用いて,構造化および記号的推論を実現するグラフ推論パラダイム(GRP)を提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:00Z) - CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing [88.9067184995168]
マルチモーダル推論と高密度報酬最適化を組み合わせた統合フレームワークCogniEditを提案する。
本手法は,視覚的品質と編集可能性の保存に追従する微粒な命令のバランスをとることによって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-15T12:36:50Z) - RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する
強化学習(RL)による多ターン推論へのテキストベースRAGの進歩
LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文 参考訳(メタデータ) (2025-12-10T10:05:31Z) - GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning [33.57411612551111]
プロセス制約付き結果ベース強化学習(RL)を用いたLLMの学習による適応型GraphRAGフレームワークGraphRAG-R1を提案する。
本手法は,複雑な問題を分解し,検索ツールを自律的に実行し,効果的な推論を行う。
我々のフレームワークは、様々な既存の検索手法と柔軟に統合でき、継続的に性能改善を提供することができる。
論文 参考訳(メタデータ) (2025-07-31T14:11:16Z) - A Pre-training Framework for Relational Data with Information-theoretic Principles [57.93973948947743]
本稿では,リレーショナルグラフ上の集合に基づくアグリゲーションを通じて,監視信号を構成する新しい事前学習フレームワークであるTask Vector Estimation (TVE)を紹介する。
TVEは従来のトレーニング前のベースラインを一貫して上回っている。
本研究は,関係データベース上での予測モデルの設計原則として,タスクの不均一性と時間構造を符号化する事前学習目的を提唱する。
論文 参考訳(メタデータ) (2025-07-14T00:17:21Z) - Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation [2.2265038612930663]
本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。
我々は、複数のスケールから機能のコントリビューションのバランスをとるためのトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。
論文 参考訳(メタデータ) (2024-01-12T09:47:17Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。