論文の概要: Privacy Preserving Visual Question Answering
- arxiv url: http://arxiv.org/abs/2202.07712v1
- Date: Tue, 15 Feb 2022 20:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:17:16.351694
- Title: Privacy Preserving Visual Question Answering
- Title(参考訳): プライバシ保護による視覚的質問応答
- Authors: Cristian-Paul Bara, Qing Ping, Abhinav Mathur, Govind Thattai, Rohith
MV, Gaurav S. Sukhatme
- Abstract要約: エッジ上で視覚質問応答を行うための新しいプライバシ保護手法を提案する。
本手法は,クラス,属性,述語を共同で予測する低複雑性コンピュータビジョンモデルを用いて,視覚シーンの記号表現を構築する。
このシンボル表現は非微分可能であり、元のイメージを復元することができないため、元のイメージをプライベートにしておくことはできない。
- 参考スコア(独自算出の注目度): 12.39600845080179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel privacy-preserving methodology for performing Visual
Question Answering on the edge. Our method constructs a symbolic representation
of the visual scene, using a low-complexity computer vision model that jointly
predicts classes, attributes and predicates. This symbolic representation is
non-differentiable, which means it cannot be used to recover the original
image, thereby keeping the original image private. Our proposed hybrid solution
uses a vision model which is more than 25 times smaller than the current
state-of-the-art (SOTA) vision models, and 100 times smaller than end-to-end
SOTA VQA models. We report detailed error analysis and discuss the trade-offs
of using a distilled vision model and a symbolic representation of the visual
scene.
- Abstract(参考訳): エッジ上で視覚質問応答を行うための新しいプライバシー保護手法を提案する。
本手法は,クラス,属性,述語を共同で予測する低複雑度コンピュータビジョンモデルを用いて,視覚シーンの象徴表現を構築する。
この記号表現は微分不可能であり、原画像の復元に使用できないため、原画像は非公開である。
提案するハイブリッドソリューションは,現在のsota(state-of-the-art)のビジョンモデルよりも25倍以上小さく,エンドツーエンドのsoma vqaモデルよりも100倍小さいビジョンモデルを用いる。
本報告では,詳細な誤差解析を行い,蒸留視覚モデルと視覚シーンの象徴的表現のトレードオフについて考察する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - NARAIM: Native Aspect Ratio Autoregressive Image Models [26.26674614731835]
NARAIMは自己回帰的対象を事前学習した視覚モデルである。
ネイティブアスペクト比を維持することにより、元の空間的コンテキストを保存し、視覚情報を解釈するモデルの能力を高める。
論文 参考訳(メタデータ) (2024-10-13T21:13:48Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Diffusing Surrogate Dreams of Video Scenes to Predict Video Memorability [2.7393821783237184]
視覚的記憶可能性,その特徴を特徴付ける視覚的表現と,その視覚的表現によって表現される概念の関連について検討する。
本研究では,サロゲートドリーム画像のみをトレーニングし,テストしたモデルを用いて,最先端の記憶可能性予測性能を実現する。
論文 参考訳(メタデータ) (2022-12-19T09:10:23Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z) - Sequential View Synthesis with Transformer [13.200139959163574]
学習した表現に基づいて、ターゲットビューを含む画像シーケンスを予測するシーケンシャルレンダリングデコーダを導入する。
我々は、様々な挑戦的なデータセットでモデルを評価し、モデルが一貫性のある予測を与えるだけでなく、微調整のための再トレーニングも必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-09T14:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。