論文の概要: FR-TTS: Test-Time Scaling for NTP-based Image Generation with Effective Filling-based Reward Signal
- arxiv url: http://arxiv.org/abs/2512.00438v1
- Date: Sat, 29 Nov 2025 10:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.242899
- Title: FR-TTS: Test-Time Scaling for NTP-based Image Generation with Effective Filling-based Reward Signal
- Title(参考訳): FR-TTS: 効率的な充足型リワード信号を用いたNTP画像生成のためのテスト時間スケーリング
- Authors: Hang Xu, Linjiang Huang, Feng Zhao,
- Abstract要約: テスト時間スケーリング(TTS)は画像生成において一般的な技術となり、出力品質を大幅に向上させた。
しかし、この強力な方法論を次世代の予測パラダイムに適用することは依然として難しい。
中間試料のほぼ将来軌跡を推定するために,フィリング・ベース・リワード (FR) を導入する。
複数の確立されたベンチマークと様々な報酬モデルに対するFR-TTSの優位性を実験的に検証した。
- 参考スコア(独自算出の注目度): 26.72622200307507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Test-time scaling (TTS) has become a prevalent technique in image generation, significantly boosting output quality by expanding the number of parallel samples and filtering them using pre-trained reward models. However, applying this powerful methodology to the next-token prediction (NTP) paradigm remains challenging. The primary obstacle is the low correlation between the reward of an image decoded from an intermediate token sequence and the reward of the fully generated image. Consequently, these incomplete intermediate representations prove to be poor indicators for guiding the pruning direction, a limitation that stems from their inherent incompleteness in scale or semantic content. To effectively address this critical issue, we introduce the Filling-Based Reward (FR). This novel design estimates the approximate future trajectory of an intermediate sample by finding and applying a reasonable filling scheme to complete the sequence. Both the correlation coefficient between rewards of intermediate samples and final samples, as well as multiple intrinsic signals like token confidence, indicate that the FR provides an excellent and reliable metric for accurately evaluating the quality of intermediate samples. Building upon this foundation, we propose FR-TTS, a sophisticated scaling strategy. FR-TTS efficiently searches for good filling schemes and incorporates a diversity reward with a dynamic weighting schedule to achieve a balanced and comprehensive evaluation of intermediate samples. We experimentally validate the superiority of FR-TTS over multiple established benchmarks and various reward models. Code is available at \href{https://github.com/xuhang07/FR-TTS}{https://github.com/xuhang07/FR-TTS}.
- Abstract(参考訳): テスト時間スケーリング(TTS)は画像生成において一般的な手法となり、並列サンプルの数を増やし、事前学習した報酬モデルを用いてフィルタリングすることにより、出力品質を大幅に向上させた。
しかし、この強力な方法論を次世代予測(NTP)パラダイムに適用することは依然として困難である。
第一の障害は、中間トークンシーケンスから復号された画像の報酬と、完全に生成された画像の報酬との相関が低いことである。
その結果、これらの不完全中間表現は、規模や意味的内容における固有の不完全性から生じる制限であるプルーニング方向を導くための指標として不十分であることが証明された。
この重要な問題に効果的に対処するために、フィリングベース・リワード(FR)を導入する。
この斬新な設計は、シーケンスを完了させるために合理的なフィリングスキームを発見し、適用することにより、中間サンプルのほぼ将来の軌跡を推定する。
中間試料と最終試料の報酬の相関係数およびトークン信頼度のような複数の固有信号は、FRが中間試料の品質を正確に評価するための優れた信頼性のある指標であることを示している。
この基盤を基盤として,高度なスケーリング戦略であるFR-TTSを提案する。
FR-TTSは、優れた充填スキームを効率的に探索し、多様性報酬を動的重み付けスケジュールに組み込んで、中間試料のバランスよく包括的な評価を実現する。
複数の確立されたベンチマークと様々な報酬モデルに対するFR-TTSの優位性を実験的に検証した。
コードは \href{https://github.com/xuhang07/FR-TTS}{https://github.com/xuhang07/FR-TTS} で入手できる。
関連論文リスト
- Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training [36.64849664688883]
Trajectory-Distilled GFlowNet(TD-GFN)は、新しいプロキシフリートレーニングフレームワークである。
逆強化学習を通じて、オフライン軌道から高密度で遷移レベルなエッジ報酬を学習する。
コンバージェンス速度と最終サンプル品質の両方において、既存のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:12:22Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Training-Free Unsupervised Prompt for Vision-Language Models [27.13778811871694]
本研究では,表現能力の保持と類似性に基づく予測確率の残差による強化を図るために,TFUP(Training-Free Unsupervised Prompts)を提案する。
TFUPは、複数の分類データセットのトレーニングベースメソッドを超え、驚くべきパフォーマンスを達成する。
TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。
論文 参考訳(メタデータ) (2024-04-25T05:07:50Z) - A Lightweight Parallel Framework for Blind Image Quality Assessment [7.9562077122537875]
ブラインド画像品質評価(BIQA)のための軽量並列フレームワーク(LPF)を提案する。
まず,事前学習した特徴抽出ネットワークを用いて視覚特徴を抽出し,視覚特徴を変換するための簡易で効果的な特徴埋め込みネットワーク(FEN)を構築した。
本稿では,サンプルレベルのカテゴリ予測タスクとバッチレベルの品質比較タスクを含む,新たな2つのサブタスクを提案する。
論文 参考訳(メタデータ) (2024-02-19T10:56:58Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Deep Boosting Multi-Modal Ensemble Face Recognition with Sample-Level
Weighting [11.39204323420108]
深層畳み込みニューラルネットワークは顔認識において顕著な成功を収めた。
現在のトレーニングベンチマークは、不均衡な品質分布を示している。
これは、訓練中に不足しているため、ハードサンプルの一般化に問題を引き起こす。
有名なAdaBoostにインスパイアされた本研究では、FR損失に異なるサンプルの重要性を組み込むためのサンプルレベルの重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T01:44:54Z) - Adaptive Siamese Tracking with a Compact Latent Network [219.38172719948048]
追跡タスクを分類に変換することで,シームズをベースとしたトラッカーを簡易化する直感的なビューを提供する。
そこで本研究では,視覚シミュレーションと実追跡例を用いて,詳細な解析を行う。
そこで我々は,古典的なSiamRPN++,SiamFC,SiamBANの3つのトラッカーを調整した。
論文 参考訳(メタデータ) (2023-02-02T08:06:02Z) - NeRF in detail: Learning to sample for view synthesis [104.75126790300735]
ニューラルレイディアンス場(NeRF)法は目覚ましい新しいビュー合成を実証している。
この作業では、バニラ粗大なアプローチの明確な制限に対処します -- パフォーマンスに基づいており、手元にあるタスクのエンドツーエンドをトレーニングしていません。
我々は、サンプルの提案と、そのネットワークにおける重要性を学習し、そのニューラルネットワークアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを導入する。
論文 参考訳(メタデータ) (2021-06-09T17:59:10Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。