論文の概要: Conditional Hallucinations for Image Compression
- arxiv url: http://arxiv.org/abs/2410.19493v1
- Date: Fri, 25 Oct 2024 11:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:10.162403
- Title: Conditional Hallucinations for Image Compression
- Title(参考訳): 画像圧縮のための条件付き幻覚
- Authors: Till Aczel, Roger Wattenhofer,
- Abstract要約: 画像圧縮の損失では、モデルは詳細を幻覚させるか、配布外サンプルを生成するという課題に直面します。
本稿では,コンテンツに基づく幻覚の度合いを動的にバランスさせる新しい圧縮手法を提案する。
本研究では,最先端画像圧縮法より優れた条件付き幻覚圧縮モデル(ConHa)を開発した。
- 参考スコア(独自算出の注目度): 23.27199615640474
- License:
- Abstract: In lossy image compression, models face the challenge of either hallucinating details or generating out-of-distribution samples due to the information bottleneck. This implies that at times, introducing hallucinations is necessary to generate in-distribution samples. The optimal level of hallucination varies depending on image content, as humans are sensitive to small changes that alter the semantic meaning. We propose a novel compression method that dynamically balances the degree of hallucination based on content. We collect data and train a model to predict user preferences on hallucinations. By using this prediction to adjust the perceptual weight in the reconstruction loss, we develop a Conditionally Hallucinating compression model (ConHa) that outperforms state-of-the-art image compression methods. Code and images are available at https://polybox.ethz.ch/index.php/s/owS1k5JYs4KD4TA.
- Abstract(参考訳): 画像圧縮の損失では、モデルは情報ボトルネックのため、詳細を幻覚させるか、配布外サンプルを生成するという課題に直面します。
これは、時に幻覚を導入することが、分布内サンプルを生成するために必要であることを意味している。
幻覚の最適なレベルは画像の内容によって異なり、人間は意味を変える小さな変化に敏感である。
本稿では,コンテンツに基づく幻覚の度合いを動的にバランスさせる新しい圧縮手法を提案する。
我々はデータを収集し、幻覚に関するユーザの好みを予測するためにモデルを訓練する。
この予測を用いて、復元損失の知覚重みを調整し、最先端の画像圧縮法より優れた条件付き幻覚圧縮モデル(ConHa)を開発する。
コードとイメージはhttps://polybox.ethz.ch/index.php/s/owS1k5JYs4KD4TAで公開されている。
関連論文リスト
- A Taxonomy of Miscompressions: Preparing Image Forensics for Neural Compression [7.328039160501825]
本稿では, うつ病の暫定分類法を提案する。
3種類の「何が起こるか」を定義し、シンボルを変更するミス圧縮を示すバイナリの「高影響」フラグを持つ。
本稿では,リスクコミュニケーションの促進と緩和研究について論じる。
論文 参考訳(メタデータ) (2024-09-09T10:36:19Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Understanding Hallucinations in Diffusion Models through Mode Interpolation [89.10226585746848]
拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-06-13T17:43:41Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Reducing Hallucinations in Neural Machine Translation with Feature
Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。
まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。
次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-11-17T20:33:56Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Let there be a clock on the beach: Reducing Object Hallucination in
Image Captioning [12.354076490479516]
画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。
この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。
本稿では,新たなトレーニングデータやモデルサイズの増大を必要としない文に対する,シンプルで効率的な3つのトレーニング拡張手法を提案する。
論文 参考訳(メタデータ) (2021-10-04T20:25:22Z) - Pragmatic Image Compression for Human-in-the-Loop Decision-Making [112.40598205054994]
ロスシー画像圧縮アルゴリズムは、画像の外観を保存し、送信に必要なビット数を最小化することを目的としている。
我々は,圧縮画像を用いたタスクの実行において,ループ内学習を通じて圧縮モデルを訓練する。
本手法は,手書き数字の読み出し,顔の写真の検証,オンラインショッピングカタログ閲覧,カーレースビデオゲームの4つのタスクにおいて,被験者による実験により評価を行った。
論文 参考訳(メタデータ) (2021-07-07T17:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。