論文の概要: VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression
- arxiv url: http://arxiv.org/abs/2512.15701v1
- Date: Wed, 17 Dec 2025 18:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.114147
- Title: VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression
- Title(参考訳): VLIC:人間に適応した画像圧縮の知覚的判断としての視覚言語モデル
- Authors: Kyle Sargent, Ruiqi Gao, Philipp Henzler, Charles Herrmann, Aleksander Holynski, Li Fei-Fei, Jiajun Wu, Jason Zhang,
- Abstract要約: Vision-Language Models for Image Compression (VLIC) は、拡散に基づく画像圧縮システムである。
このシステムをVLM判定で校正すると、データセットに応じて人力による視覚的圧縮に対して、競争力や最先端のパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 83.36460501519203
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluations of image compression performance which include human preferences have generally found that naive distortion functions such as MSE are insufficiently aligned to human perception. In order to align compression models to human perception, prior work has employed differentiable perceptual losses consisting of neural networks calibrated on large-scale datasets of human psycho-visual judgments. We show that, surprisingly, state-of-the-art vision-language models (VLMs) can replicate binary human two-alternative forced choice (2AFC) judgments zero-shot when asked to reason about the differences between pairs of images. Motivated to exploit the powerful zero-shot visual reasoning capabilities of VLMs, we propose Vision-Language Models for Image Compression (VLIC), a diffusion-based image compression system designed to be post-trained with binary VLM judgments. VLIC leverages existing techniques for diffusion model post-training with preferences, rather than distilling the VLM judgments into a separate perceptual loss network. We show that calibrating this system on VLM judgments produces competitive or state-of-the-art performance on human-aligned visual compression depending on the dataset, according to perceptual metrics and large-scale user studies. We additionally conduct an extensive analysis of the VLM-based reward design and training procedure and share important insights. More visuals are available at https://kylesargent.github.io/vlic
- Abstract(参考訳): 人間の嗜好を含む画像圧縮性能の評価では、MSEのような自然な歪み関数が人間の知覚に不十分に一致していることが一般的である。
圧縮モデルを人間の知覚に合わせるために、以前の研究では、人間の心理視覚的判断の大規模なデータセットに基づいて調整されたニューラルネットワークによる知覚的損失が相違している。
驚くべきことに、最先端の視覚言語モデル(VLM)は、画像のペアの違いを判断するためにゼロショットを判定する2つの人間の2つの交互選択(2AFC)を再現することができる。
画像圧縮のための視覚言語モデル (VLIC) を提案する。VLMの強力なゼロショット視覚推論機能を利用するために,2値のVLM判定を後処理した拡散型画像圧縮システムを提案する。
VLICは、VLMの判断を別の知覚的損失ネットワークに蒸留するのではなく、好みによる拡散モデルの既存の手法を活用する。
本稿では, VLM判定におけるこのシステムの校正により, 知覚的指標や大規模ユーザスタディにより, データセットによる人間の協調的な視覚的圧縮に対して, 競争力や最先端のパフォーマンスが得られていることを示す。
さらに、VLMに基づく報酬設計およびトレーニング手順の広範な分析を行い、重要な洞察を共有します。
詳細はhttps://kylesargent.github.io/vlicで確認できる。
関連論文リスト
- ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Guided Diffusion for the Extension of Machine Vision to Human Visual Perception [0.0]
誘導拡散を用いた人間の視覚知覚にマシンビジョンを拡張させる手法を提案する。
誘導拡散は、マシンビジョンと人間の知覚の間のブリッジとして機能し、追加のオーバーヘッドなしにそれらの間の遷移を可能にする。
論文 参考訳(メタデータ) (2025-03-23T03:04:26Z) - Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization [28.089274647643716]
FlowMoは、複数の圧縮速度で画像トークン化のための新しい最先端技術を実現するトランスフォーマーベースの拡散オートエンコーダである。
重要な洞察は、FlowMoトレーニングは、トレーニング前段階とトレーニング後段階に分割されるべきであるということです。
論文 参考訳(メタデータ) (2025-03-14T03:49:17Z) - Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T11:09:30Z) - V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。