論文の概要: VACoDe: Visual Augmented Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2408.05337v1
- Date: Fri, 26 Jul 2024 15:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 04:07:11.654550
- Title: VACoDe: Visual Augmented Contrastive Decoding
- Title(参考訳): VACoDe: Visual Augmented Contrastive Decoding
- Authors: Sihyeon Kim, Boryeong Cho, Sangmin Bae, Sumyeong Ahn, Se-Young Yun,
- Abstract要約: 視覚言語モデルにおける幻覚を軽減するために, VACoDe, Visual Augmented Contrastive Decodingを導入する。
VACoDeは、提案したソフトマックス距離メートル法を用いて、各タスクに対して最もコントラストの高い拡張を適応的に選択する。
algは従来の手法より優れ、様々な視覚言語タスクの出力品質が向上する。
- 参考スコア(独自算出の注目度): 26.47050087821598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the astonishing performance of recent Large Vision-Language Models (LVLMs), these models often generate inaccurate responses. To address this issue, previous studies have focused on mitigating hallucinations by employing contrastive decoding (CD) with augmented images, which amplifies the contrast with the original image. However, these methods have limitations, including reliance on a single augmentation, which is restrictive for certain tasks, as well as the high cost of using external knowledge. In this study, we address these limitations by exploring how to utilize multiple image augmentations. Through extensive experiments, we observed that different augmentations produce varying levels of contrast depending on the task. Based on this observation, we introduce a novel method called VACoDe, Visual Augmented Contrastive Decoding. This method adaptively selects the augmentation with the highest contrast for each task using the proposed softmax distance metric. Our empirical tests show that \alg outperforms previous methods and improves output quality in various vision-language tasks. Additionally, VACoDe can be universally applied across different model types and sizes without additional training or the use of external models and data.
- Abstract(参考訳): 最近のLVLM(Large Vision-Language Models)の驚くべき性能にもかかわらず、これらのモデルはしばしば不正確な応答を生成する。
この問題に対処するために,従来の研究では,強調画像を用いたコントラストデコーディング(CD)による幻覚の緩和に焦点を合わせ,元の画像とのコントラストを増幅した。
しかし、これらの手法には、特定のタスクに制限のある1つの拡張への依存や、外部知識の使用コストの高騰など、制限がある。
本研究では,これらの制約に対処するために,複数の画像の増大を利用する方法を探究する。
広範囲な実験を通して、異なる拡張がタスクによって異なるレベルのコントラストを生み出すことが観察された。
そこで本研究では,VACoDe(Visual Augmented Contrastive Decoding)と呼ばれる新しい手法を提案する。
本手法は,提案したソフトマックス距離距離計を用いて,各タスクに対して高いコントラストで拡張を適応的に選択する。
実験により, 従来の手法よりも優れた結果が得られ, 様々な視覚言語タスクの出力品質が向上した。
さらにVACoDeは、追加のトレーニングや外部モデルやデータの使用なしに、さまざまなモデルタイプやサイズにわたって普遍的に適用することができる。
関連論文リスト
- Revising Multimodal VAEs with Diffusion Decoders [1.9413548770753526]
マルチモーダルVAEは、しばしば高品質な出力を生成するのに苦労する。
中心的な問題は、潜在空間の制限された合同表現にある。
フィードフォワードデコーダは必然的にジョイント潜在空間を制約し、他のモダリティの品質も低下させる。
論文 参考訳(メタデータ) (2024-08-29T20:12:01Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Gadolinium dose reduction for brain MRI using conditional deep learning [66.99830668082234]
これらの手法の主な課題は、コントラスト強調の正確な予測と現実的な画像の合成である。
コントラスト前の画像対とコントラスト後の画像対のサブトラクション画像に符号化されたコントラスト信号を利用することで、両課題に対処する。
各種スキャナー,フィールド強度,コントラストエージェントを用いた合成および実データに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-03-06T08:35:29Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - RangeAugment: Efficient Online Augmentation with Range Learning [54.61514286212455]
RangeAugmentは、個々の大きさと複合オーグメンテーション操作を効率よく学習する。
本研究では,RangeAugmentの4~5倍の精度で,最先端自動拡張手法の競争性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:55:54Z) - Unsupervised Feature Clustering Improves Contrastive Representation
Learning for Medical Image Segmentation [18.75543045234889]
自己監督型インスタンス識別は、特徴表現を学習し、限られた医用画像アノテーションに対処する効果的なコントラスト的前提課題である。
本稿では,教師なし特徴クラスタリングを用いた自己教師付きコントラスト学習手法を提案する。
本手法は,これらの課題に対して,最先端の自己監督型コントラスト技術より優れる。
論文 参考訳(メタデータ) (2022-11-15T22:54:29Z) - Optimizing Hierarchical Image VAEs for Sample Quality [0.0]
階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。
これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。
我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
論文 参考訳(メタデータ) (2022-10-18T23:10:58Z) - ContrastVAE: Contrastive Variational AutoEncoder for Sequential
Recommendation [58.02630582309427]
本稿では,コントラスト学習を変分オートエンコーダの枠組みに組み込むことを提案する。
ContrastELBOは,従来のシングルビューELBOを2ビューケースに拡張した,新しいトレーニング目標である。
また、コントラストELBOの具体化として、コントラスト正規化を備えた2分岐VAEモデルであるContrastVAEを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:35:00Z) - Residual Relaxation for Multi-view Representation Learning [64.40142301026805]
マルチビュー手法は、同じ画像の複数のビューをアライメントすることで学習する。
画像回転などの有用な拡張は、セマンティックシフトを引き起こすため、多視点法には有害である。
我々は,Pretext-aware Residual Relaxation (Prelax) という汎用的な手法を開発し,正確なアライメントを緩和する。
論文 参考訳(メタデータ) (2021-10-28T17:57:17Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。