論文の概要: Pragmatic Image Compression for Human-in-the-Loop Decision-Making
- arxiv url: http://arxiv.org/abs/2108.04219v1
- Date: Wed, 7 Jul 2021 17:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 04:08:38.531421
- Title: Pragmatic Image Compression for Human-in-the-Loop Decision-Making
- Title(参考訳): ループ内意思決定のための実用的画像圧縮
- Authors: Siddharth Reddy, Anca D. Dragan, Sergey Levine
- Abstract要約: ロスシー画像圧縮アルゴリズムは、画像の外観を保存し、送信に必要なビット数を最小化することを目的としている。
我々は,圧縮画像を用いたタスクの実行において,ループ内学習を通じて圧縮モデルを訓練する。
本手法は,手書き数字の読み出し,顔の写真の検証,オンラインショッピングカタログ閲覧,カーレースビデオゲームの4つのタスクにおいて,被験者による実験により評価を行った。
- 参考スコア(独自算出の注目度): 112.40598205054994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard lossy image compression algorithms aim to preserve an image's
appearance, while minimizing the number of bits needed to transmit it. However,
the amount of information actually needed by a user for downstream tasks --
e.g., deciding which product to click on in a shopping website -- is likely
much lower. To achieve this lower bitrate, we would ideally only transmit the
visual features that drive user behavior, while discarding details irrelevant
to the user's decisions. We approach this problem by training a compression
model through human-in-the-loop learning as the user performs tasks with the
compressed images. The key insight is to train the model to produce a
compressed image that induces the user to take the same action that they would
have taken had they seen the original image. To approximate the loss function
for this model, we train a discriminator that tries to distinguish whether a
user's action was taken in response to the compressed image or the original. We
evaluate our method through experiments with human participants on four tasks:
reading handwritten digits, verifying photos of faces, browsing an online
shopping catalogue, and playing a car racing video game. The results show that
our method learns to match the user's actions with and without compression at
lower bitrates than baseline methods, and adapts the compression model to the
user's behavior: it preserves the digit number and randomizes handwriting style
in the digit reading task, preserves hats and eyeglasses while randomizing
faces in the photo verification task, preserves the perceived price of an item
while randomizing its color and background in the online shopping task, and
preserves upcoming bends in the road in the car racing game.
- Abstract(参考訳): 標準的な損失画像圧縮アルゴリズムは、画像の外観を保存し、送信に必要なビット数を最小化する。
しかし、ユーザーがダウンストリームタスクに実際に必要な情報量(例えば、ショッピングウェブサイトでクリックする商品を決定する)は、おそらくはるかに少ない。
この低ビットレートを達成するためには、ユーザの行動を促す視覚的特徴のみを送信し、ユーザの判断に関係のない詳細を破棄することが理想である。
ユーザが圧縮画像を用いてタスクを実行する際に,ループ内学習を通じて圧縮モデルをトレーニングすることにより,この問題にアプローチする。
キーとなる洞察は、モデルをトレーニングして圧縮されたイメージを生成し、元のイメージを見た場合と同じアクションを取るようにユーザに誘導することである。
このモデルの損失関数を近似するために、圧縮された画像に応答してユーザーのアクションが取られたかどうかを識別しようとする判別器を訓練する。
本手法は,手書き数字の読み出し,顔の写真の検証,オンラインショッピングカタログ閲覧,カーレースビデオゲームの4つのタスクにおいて,被験者による実験により評価を行った。
The results show that our method learns to match the user's actions with and without compression at lower bitrates than baseline methods, and adapts the compression model to the user's behavior: it preserves the digit number and randomizes handwriting style in the digit reading task, preserves hats and eyeglasses while randomizing faces in the photo verification task, preserves the perceived price of an item while randomizing its color and background in the online shopping task, and preserves upcoming bends in the road in the car racing game.
関連論文リスト
- Scaling Training Data with Lossy Image Compression [8.05574597775852]
コンピュータビジョンでは、画像は本質的にアナログであるが、常に有限ビットでデジタル形式で保存される。
サンプルサイズと画像あたりのビット数によるテストエラーの連成進化を記述したストレージスケーリング法則を提案する。
我々は,この法則が画像圧縮のスタイリングモデル内にあることを証明し,二つのコンピュータビジョンタスクで実証的に検証する。
論文 参考訳(メタデータ) (2024-07-25T11:19:55Z) - Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Extracting Human Attention through Crowdsourced Patch Labeling [18.947126675569667]
画像分類では、データセットのバイアスから重大な問題が生じる。
このようなバイアスを軽減する1つのアプローチは、モデルが対象物の位置に注意を向けることである。
本稿では,画像から人の注意を捉えるために,クラウドソーシングとAI支援を統合した新しいパッチラベル手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T07:57:27Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training [90.76576712433595]
ディープニューラルネットワークによって処理された画像に損失圧縮を適用することで、大幅な精度低下につながる可能性がある。
カリキュラム学習のパラダイムに着想を得て,圧縮画像の群集カウントのためのカリキュラム事前学習(CPT)と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T08:43:21Z) - Content Masked Loss: Human-Like Brush Stroke Planning in a Reinforcement
Learning Painting Agent [10.80927979540912]
本稿では,モデル報酬関数を用いた新たな損失関数を提案する。
以上の結果から,コンテンツマスクモデルによるデジタル絵画は,既存の手法よりも早期に被写体を検出できることがわかった。
論文 参考訳(メタデータ) (2020-12-18T04:02:13Z) - Distributed Learning and Inference with Compressed Images [40.07509530656681]
本稿では,自律運転に対する視覚に基づく認識をパラダイムシナリオとして取り上げる。
生成逆ネットワーク(GAN)を用いた画像復元に基づくデータセット復元を提案する。
本手法は,特定の画像圧縮手法と下流タスクの両方に非依存である。
論文 参考訳(メタデータ) (2020-04-22T11:20:53Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。