論文の概要: Diffusion Is Your Friend in Show, Suggest and Tell
- arxiv url: http://arxiv.org/abs/2512.10038v1
- Date: Wed, 10 Dec 2025 19:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.032615
- Title: Diffusion Is Your Friend in Show, Suggest and Tell
- Title(参考訳): ディフュージョンは、ショー、サジェスト、メッセージの友達
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi,
- Abstract要約: 本稿では,拡散モデルを用いて自己回帰生成を置き換えるのではなく,自己回帰生成に提案する新しいパラダイムを提案する。
また,その効果を示すために,COCOにおけるShow,Suggest and Tell(SST)について述べる。
SSTは、強化学習なしでCOCOデータセット上で125.1のCIDEr-Dを達成し、自己回帰モデルと拡散モデルの両方を1.5点と2.5点で上回っている。
- 参考スコア(独自算出の注目度): 45.434150824216026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion Denoising models demonstrated impressive results across generative Computer Vision tasks, but they still fail to outperform standard autoregressive solutions in the discrete domain, and only match them at best. In this work, we propose a different paradigm by adopting diffusion models to provide suggestions to the autoregressive generation rather than replacing them. By doing so, we combine the bidirectional and refining capabilities of the former with the strong linguistic structure provided by the latter. To showcase its effectiveness, we present Show, Suggest and Tell (SST), which achieves State-of-the-Art results on COCO, among models in a similar setting. In particular, SST achieves 125.1 CIDEr-D on the COCO dataset without Reinforcement Learning, outperforming both autoregressive and diffusion model State-of-the-Art results by 1.5 and 2.5 points. On top of the strong results, we performed extensive experiments to validate the proposal and analyze the impact of the suggestion module. Results demonstrate a positive correlation between suggestion and caption quality, overall indicating a currently underexplored but promising research direction. Code will be available at: https://github.com/jchenghu/show\_suggest\_tell.
- Abstract(参考訳): Diffusion Denoisingモデルは、生成するコンピュータビジョンタスク間で印象的な結果を示したが、それでも離散領域における標準的な自己回帰的ソリューションを上回り、うまく一致しない。
本研究では,拡散モデルを用いて自己回帰生成を置き換えるのではなく,自己回帰生成を提案する。
これにより、前者の双方向性と精製能力と、後者が提供する強い言語構造を結合する。
提案手法の有効性を示すため,COCO上でのShow, Suggest and Tell (SST) を, 同様の設定のモデルで提示する。
特に、SSTは強化学習なしでCOCOデータセット上で125.1のCIDEr-Dを達成し、自己回帰モデルと拡散モデルの両方で1.5点と2.5点を上回ります。
その結果,提案手法の有効性を検証し,提案モジュールの影響を分析した。
その結果,提案とキャプションの品質には正の相関がみられた。
コードは、https://github.com/jchenghu/show\_suggest\_tell.comから入手できる。
関連論文リスト
- DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。