論文の概要: The Describe-Then-Generate Bottleneck: How VLM Descriptions Alter Image Generation Outcomes
- arxiv url: http://arxiv.org/abs/2509.18179v1
- Date: Thu, 18 Sep 2025 01:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.460923
- Title: The Describe-Then-Generate Bottleneck: How VLM Descriptions Alter Image Generation Outcomes
- Title(参考訳): The Describe-Then-Generate Bottleneck: VLMによる画像生成結果の表示方法
- Authors: Sai Varun Kodathala, Rakesh Vunnam,
- Abstract要約: 本稿では,自然言語が視覚情報の中間表現として機能する記述列生成ボトルネックの実証分析を行う。
評価の結果,99.3%のサンプルが知覚的劣化を示し,91.5%が構造的情報損失を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing integration of multimodal AI systems in creative workflows, understanding information loss in vision-language-vision pipelines has become important for evaluating system limitations. However, the degradation that occurs when visual content passes through textual intermediation remains poorly quantified. In this work, we provide empirical analysis of the describe-then-generate bottleneck, where natural language serves as an intermediate representation for visual information. We generated 150 image pairs through the describe-then-generate pipeline and applied existing metrics (LPIPS, SSIM, and color distance) to measure information preservation across perceptual, structural, and chromatic dimensions. Our evaluation reveals that 99.3% of samples exhibit substantial perceptual degradation and 91.5% demonstrate significant structural information loss, providing empirical evidence that the describe-then-generate bottleneck represents a measurable and consistent limitation in contemporary multimodal systems.
- Abstract(参考訳): 創造的なワークフローにおけるマルチモーダルAIシステムの統合の増加に伴い、ビジョン言語ビジョンパイプラインにおける情報損失の理解は、システムの制限を評価する上で重要になっている。
しかし、視覚的コンテンツがテキスト修復を経た時に発生する劣化は、まだ定量化されていない。
本研究では,自然言語が視覚情報の中間表現として機能する記述列生成ボトルネックの実証分析を行う。
我々は,記述列生成パイプラインを通じて150枚の画像ペアを生成し,既存の計測値(LPIPS, SSIM, 色距離)を適用し,知覚, 構造, 色調の両面にわたる情報保存を計測した。
評価の結果, 99.3%のサンプルが実質的な知覚的劣化を示し, 91.5%が重要な構造的情報損失を示し, 現代のマルチモーダルシステムにおいて, 説明列生成ボトルネックが測定可能かつ一貫した限界を示すという実証的証拠が得られた。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - SeFENet: Robust Deep Homography Estimation via Semantic-Driven Feature Enhancement [14.1936051404987]
厳しい環境で撮影された画像は、しばしばぼやけた細部、コントラストの低減、色歪みを示す。
本稿では,SeFENetと呼ばれる,ロバストなホモグラフィ推定のための意味駆動型機能拡張ネットワークを提案する。
SeFENetはSOTA法を著しく上回り,大規模データセット上での点一致誤差を少なくとも41%低減することを示した。
論文 参考訳(メタデータ) (2024-12-09T10:04:14Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。