論文の概要: Scaling Group Inference for Diverse and High-Quality Generation
- arxiv url: http://arxiv.org/abs/2508.15773v1
- Date: Thu, 21 Aug 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.446537
- Title: Scaling Group Inference for Diverse and High-Quality Generation
- Title(参考訳): 分散・高品質生成のためのスケーリンググループ推論
- Authors: Gaurav Parmar, Or Patashnik, Daniil Ostashev, Kuan-Chieh Wang, Kfir Aberman, Srinivasa Narasimhan, Jun-Yan Zhu,
- Abstract要約: サンプル群の多様性と品質を改善するスケーラブルなグループ推論手法を提案する。
本フレームワークは,テキスト・ツー・イメージ,イメージ・ツー・イメージ,画像プロンプト,ビデオ生成など,幅広いタスクを一般化する。
- 参考スコア(独自算出の注目度): 43.33751261265585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models typically sample outputs independently, and recent inference-time guidance and scaling algorithms focus on improving the quality of individual samples. However, in real-world applications, users are often presented with a set of multiple images (e.g., 4-8) for each prompt, where independent sampling tends to lead to redundant results, limiting user choices and hindering idea exploration. In this work, we introduce a scalable group inference method that improves both the diversity and quality of a group of samples. We formulate group inference as a quadratic integer assignment problem: candidate outputs are modeled as graph nodes, and a subset is selected to optimize sample quality (unary term) while maximizing group diversity (binary term). To substantially improve runtime efficiency, we progressively prune the candidate set using intermediate predictions, allowing our method to scale up to large candidate sets. Extensive experiments show that our method significantly improves group diversity and quality compared to independent sampling baselines and recent inference algorithms. Our framework generalizes across a wide range of tasks, including text-to-image, image-to-image, image prompting, and video generation, enabling generative models to treat multiple outputs as cohesive groups rather than independent samples.
- Abstract(参考訳): 生成モデルは通常、独立してサンプル出力をサンプリングし、最近の推論時ガイダンスとスケーリングアルゴリズムは、個々のサンプルの品質を改善することに重点を置いている。
しかし、現実世界のアプリケーションでは、ユーザーはそれぞれのプロンプトに対して複数のイメージ(例:4-8)を提示されることが多い。
本研究では,サンプル群の多様性と品質を両立させるスケーラブルなグループ推論手法を提案する。
グループ推論を2次整数代入問題として定式化し、候補出力をグラフノードとしてモデル化し、グループ多様性(バイナリ項)を最大化しながらサンプル品質(通常項)を最適化するサブセットを選択する。
実行時の効率を大幅に向上するため、中間予測を用いて候補セットを段階的に作成し、提案手法を大規模候補セットにスケールアップする。
大規模な実験により,本手法は,独立したサンプリングベースラインや最近の推論アルゴリズムと比較して,グループの多様性と品質を著しく向上させることが示された。
本フレームワークは,テキスト・ツー・イメージ,イメージ・ツー・イメージ,画像プロンプト,ビデオ生成など,多種多様なタスクを一般化する。
関連論文リスト
- Towards Compute-Optimal Many-Shot In-Context Learning [63.815463719071055]
マルチショットICLにおけるデモ選択のための2つの戦略を提案する。
最初の方法は、テストサンプルの類似性に基づいて選択された少数のデモと、キャッシュされるランダムなデモの集合を組み合わせる。
第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
論文 参考訳(メタデータ) (2025-07-22T04:21:03Z) - Hit the Sweet Spot! Span-Level Ensemble for Large Language Models [8.34562564266839]
本研究では,リアルタイム調整の必要性と正確なアンサンブル決定に必要な情報とを効果的にバランスさせるスパンレベルアンサンブル手法であるSweetSpanを提案する。
まず、各候補モデルを独立して共有プレフィックスに基づいて候補スパンを生成する。
第二に、難易度スコアを計算して、候補モデル間の相互評価を容易にし、不誠実なスコアを抽出してロバストなスパン選択を実現する。
論文 参考訳(メタデータ) (2024-09-27T09:41:29Z) - Compress Guidance in Conditional Diffusion Sampling [16.671575782090045]
この研究は問題を識別し、定量化し、多くのタイミングでガイダンスを減らしたり除いたりすることでこの問題を軽減できることを示した。
画像の質と多様性を著しく向上させながら、必要なガイダンスタイムステップを40%近く削減する。
論文 参考訳(メタデータ) (2024-08-20T21:02:54Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Rethinking Sampling Strategies for Unsupervised Person Re-identification [59.47536050785886]
我々は,同じフレームワーク下での各種サンプリング戦略と損失関数のパフォーマンス差の理由を解析した。
グループサンプリングを提案し、同じクラスのサンプルをグループに集める。
Market-1501、DukeMTMC-reID、MSMT17の実験は、グループサンプリングが最先端の手法に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。
本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-01-05T05:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。