論文の概要: CARINOX: Inference-time Scaling with Category-Aware Reward-based Initial Noise Optimization and Exploration
- arxiv url: http://arxiv.org/abs/2509.17458v1
- Date: Mon, 22 Sep 2025 07:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.276178
- Title: CARINOX: Inference-time Scaling with Category-Aware Reward-based Initial Noise Optimization and Exploration
- Title(参考訳): CARINOX:カテゴリー認識リワードに基づく初期雑音最適化と探索による推論時間スケーリング
- Authors: Seyed Amir Kasaei, Ali Aghayari, Arash Marioriyad, Niki Sepasian, Shayan Baghayi Nejad, MohammadAmin Fazli, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban,
- Abstract要約: カテゴリーアウェア・リワードに基づく初期騒音最適化・探索(CARINOX)
CARINOX(Calegory-Aware Reward-based Initial Noise Optimization and Exploration)を提案する。
CARINOXは平均アライメントスコアをT2I-CompBench++で+16%、HRSベンチマークで+11%向上することを示した。
- 参考スコア(独自算出の注目度): 12.905084796136883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models, such as Stable Diffusion, can produce high-quality and diverse images but often fail to achieve compositional alignment, particularly when prompts describe complex object relationships, attributes, or spatial arrangements. Recent inference-time approaches address this by optimizing or exploring the initial noise under the guidance of reward functions that score text-image alignment without requiring model fine-tuning. While promising, each strategy has intrinsic limitations when used alone: optimization can stall due to poor initialization or unfavorable search trajectories, whereas exploration may require a prohibitively large number of samples to locate a satisfactory output. Our analysis further shows that neither single reward metrics nor ad-hoc combinations reliably capture all aspects of compositionality, leading to weak or inconsistent guidance. To overcome these challenges, we present Category-Aware Reward-based Initial Noise Optimization and Exploration (CARINOX), a unified framework that combines noise optimization and exploration with a principled reward selection procedure grounded in correlation with human judgments. Evaluations on two complementary benchmarks covering diverse compositional challenges show that CARINOX raises average alignment scores by +16% on T2I-CompBench++ and +11% on the HRS benchmark, consistently outperforming state-of-the-art optimization and exploration-based methods across all major categories, while preserving image quality and diversity. The project page is available at https://amirkasaei.com/carinox/{this URL}.
- Abstract(参考訳): 安定拡散のようなテキストと画像の拡散モデルは高品質で多様な画像を生成することができるが、複雑なオブジェクト関係、属性、空間配置をプロンプトが記述する場合、しばしばコンポジションアライメントを達成できない。
最近の推論時間アプローチでは、モデル微調整を必要とせず、テキスト画像のアライメントをスコアする報酬関数のガイダンスの下で初期ノイズを最適化または探索することでこの問題に対処している。
最適化は、初期化が不十分であったり、検索路が好ましくないため停止する可能性があるが、探索には十分な出力を見つけるために、非常に多くのサンプルが必要である。
分析の結果,単一報酬の指標もアドホックな組み合わせも,構成性のすべての側面を確実に捉えておらず,弱さや矛盾した指導に繋がることがわかった。
これらの課題を克服するために,CARINOX(Calegory-Aware Reward-based Initial Noise Optimization and Exploration)を提案する。
CARINOXはT2I-CompBench++で平均アライメントスコアが+16%、HRSベンチマークで+11%上昇し、画像の品質と多様性を保ちながら、最先端の最適化と探索に基づく手法を一貫して上回っている。
プロジェクトのページはhttps://amirkasaei.com/carinox/{this URL}で公開されている。
関連論文リスト
- Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - OptiPrune: Boosting Prompt-Image Consistency with Attention-Guided Noise and Dynamic Token Selection [0.0]
分布を考慮した初期ノイズ最適化と類似性に基づくトークンプルーニングを組み合わせた統合フレームワークを提案する。
Animal-Animalを含むベンチマークデータセットの実験では、OptiPruneは計算コストを大幅に削減し、最先端のプロンプトイメージの一貫性を達成している。
論文 参考訳(メタデータ) (2025-07-01T14:24:40Z) - Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models [13.428939931403473]
RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。
RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。
経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
論文 参考訳(メタデータ) (2025-06-20T09:02:05Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise [96.80184504268593]
グラデーション、クリッピングは、優れた高確率保証を導き出すアルゴリズムの鍵となる要素の1つである。
クリッピングは、合成および分散最適化の一般的な方法の収束を損なう可能性がある。
論文 参考訳(メタデータ) (2023-10-03T07:49:17Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - A Unified Framework of Bundle Adjustment and Feature Matching for
High-Resolution Satellite Images [4.835738511987696]
この記事では、統合フレームワークにおけるバンドル調整(BA)と機能マッチングを包括的に実施する。
マルチビュー高解像度衛星画像の実験により,提案手法は最先端の配向技術より優れていることが示された。
論文 参考訳(メタデータ) (2021-07-01T16:40:25Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。