論文の概要: The Image Reconstruction Game: Drawing Common Ground Through Iterative Multimodal Dialogue
- arxiv url: http://arxiv.org/abs/2606.01901v1
- Date: Mon, 01 Jun 2026 08:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.624412
- Title: The Image Reconstruction Game: Drawing Common Ground Through Iterative Multimodal Dialogue
- Title(参考訳): 画像再構成ゲーム: 反復的マルチモーダル対話による共通グラウンドの描画
- Authors: Sherzod Hakimov, Mattia D'Agostini, Ivan Samodelkin, David Schlangen,
- Abstract要約: 我々は、視覚言語モデルが複数のターンにまたがる画像生成装置に補正命令を発行する完全自動ベンチマークである画像再構成ゲームを紹介した。
また, 再現品質の要因として, 再現性向上の助けとなるか, 痛みを伴うか, ジェネレータが決定する。
- 参考スコア(独自算出の注目度): 15.768100289136392
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the Image Reconstruction Game, a fully automated benchmark in which a vision-language model issues corrective instructions to an image generator across multiple turns, making accumulated common ground directly observable as a rendered image. Benchmarking two Describer models crossed with two Generator models across seven image categories, we find that the describer is the dominant factor in reconstruction quality, while the generator determines whether iterative refinement helps or hurts. Mathematical and geometric images pose the greatest challenge. The describer's token budget strongly affects convergence: shorter budgets yield sparser first renderings with more room for visible improvement, while longer budgets raise absolute quality but leave less to fix. Stronger describers use a richer correction vocabulary spanning spatial, numeric, and structural categories, while weaker describers concentrate on surface properties and tend to stop after a few turns. Human validation shows that the best automated judge reaches only slight-to-fair agreement with human preferences, and automated scores require human recalibration to be used reliably.
- Abstract(参考訳): 視覚言語モデルが複数回にわたって画像生成器に補正命令を発行する完全自動ベンチマークである画像再構成ゲームを導入し、蓄積された共通グラウンドをレンダリング画像として直接観測できるようにする。
7つの画像カテゴリにわたる2つのジェネレータモデルと交差する2つのディスクリプタモデルをベンチマークした結果、リコンストラクタがリコンストラクション品質の主要な要因であることが判明した。
数学的、幾何学的なイメージは最大の課題を浮き彫りにする。
より短い予算は、目に見える改善の余地のあるスペーサーの最初のレンダリングをもたらすが、長い予算は絶対的な品質を高めるが、修正する余地は少ない。
より強い記述者は、空間的、数値的、構造的なカテゴリにまたがるよりリッチな修正語彙を使い、弱い記述者は表面の性質に集中し、数回転後に停止する傾向がある。
人間による検証では、最良の自動判断者は、人間の好みとわずかに一致しただけで、自動化されたスコアは、人間の再校正を確実に行う必要がある。
関連論文リスト
- Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling [14.372824543814602]
Masked Autoregressive (MAR)モデルは、並列生成能力のためのオートレグレッシブ(AR)モデルよりも、視覚生成の効率を向上する。
我々は、生成を2段階に分解するトレーニング不要な階層的サンプリング戦略であるGeneration then Reconstruction (GtR)を紹介した。
ImageNetのクラス条件とテキスト・ツー・イメージ生成の実験は、MAR-Hの3.72倍のスピードアップを示しながら、同等の品質を維持している。
論文 参考訳(メタデータ) (2025-10-20T05:22:10Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [57.62831463679979]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。