論文の概要: Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks
- arxiv url: http://arxiv.org/abs/2408.08149v1
- Date: Thu, 15 Aug 2024 13:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:46:24.761503
- Title: Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks
- Title(参考訳): ブリッジ画像復元と高レベル視覚タスクのための教師なし変分変換器
- Authors: Jiawei Wu, Zhi Jin,
- Abstract要約: textbfVariational textbfTranslator (VaT)
既存の修復や高レベルのビジョンネットワークの再訓練は不要である。
VaTはラベルを必要とせずに上記の最適化目標を達成する。
- 参考スコア(独自算出の注目度): 24.076965636237098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research tries to extend image restoration capabilities from human perception to machine perception, thereby enhancing the performance of high-level vision tasks in degraded environments. These methods, primarily based on supervised learning, typically involve the retraining of restoration networks or high-level vision networks. However, collecting paired data in real-world scenarios and retraining large-scale models are challenge. To this end, we propose an unsupervised learning method called \textbf{Va}riational \textbf{T}ranslator (VaT), which does not require retraining existing restoration and high-level vision networks. Instead, it establishes a lightweight network that serves as an intermediate bridge between them. By variational inference, VaT approximates the joint distribution of restoration output and high-level vision input, dividing the optimization objective into preserving content and maximizing marginal likelihood associated with high-level vision tasks. By cleverly leveraging self-training paradigms, VaT achieves the above optimization objective without requiring labels. As a result, the translated images maintain a close resemblance to their original content while also demonstrating exceptional performance on high-level vision tasks. Extensive experiments in dehazing and low-light enhancement for detection and classification show the superiority of our method over other state-of-the-art unsupervised counterparts, even significantly surpassing supervised methods in some complex real-world scenarios.
- Abstract(参考訳): 近年の研究では、画像復元能力を人間の知覚から機械知覚に拡張し、劣化した環境下での高レベル視覚タスクの性能向上を図っている。
これらの手法は、主に教師付き学習に基づいており、典型的には修復ネットワークや高レベルの視覚ネットワークの再訓練を含む。
しかし,現実シナリオにおけるペアデータ収集や大規模モデルの再学習は困難である。
そこで本研究では,既存の修復ネットワークや高レベルビジョンネットワークの再構築を必要としない,教師なし学習手法である「textbf{Va}riational \textbf{T}ranslator (VaT)」を提案する。
代わりに、中間ブリッジとして機能する軽量ネットワークを確立する。
変動推論により、VaTは、復元出力と高レベル視覚入力の結合分布を近似し、最適化目標をコンテンツ保存に分割し、高レベル視覚タスクに関連する限界確率を最大化する。
自己学習パラダイムを巧みに活用することにより、VaTはラベルを必要とせずに上記の最適化目標を達成する。
その結果、翻訳された画像は元の内容とよく似ているが、ハイレベルな視覚タスクでは例外的な性能を示す。
脱ハージングと低照度化による検出と分類の徹底的な実験は、我々の手法が他の最先端の教師なし手法よりも優れており、複雑な実世界のシナリオでは教師付き手法をはるかに上回っていることを示している。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文 参考訳(メタデータ) (2023-08-07T07:59:56Z) - Let Segment Anything Help Image Dehaze [12.163299570927302]
低レベルコンピュータビジョンタスクに先立って,大規模モデルを統合するためのフレームワークを提案する。
低レベル視覚タスクの導出における大規模モデルの有効性と適用性を示す。
論文 参考訳(メタデータ) (2023-06-28T02:02:19Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Leveraging background augmentations to encourage semantic focus in
self-supervised contrastive learning [16.93045612956149]
背景強化」は、画像の背景に焦点を合わせないようにし、意味的関連コンテンツに焦点を合わせることを奨励する。
背景の増強は、最先端の自己監督方法のスペクトル全体のパフォーマンスの大幅な改善(ImageNet-1kで+1-2%)につながります。
論文 参考訳(メタデータ) (2021-03-23T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。