Fugu-MT 論文翻訳(概要): Controllable Data Augmentation Through Deep Relighting

論文の概要: Controllable Data Augmentation Through Deep Relighting

arxiv url: http://arxiv.org/abs/2110.13996v1
Date: Tue, 26 Oct 2021 20:02:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-28 13:27:31.291483
Title: Controllable Data Augmentation Through Deep Relighting
Title（参考訳）: ディープリライトによる制御可能なデータ拡張
Authors: George Chogovadze and R\'emi Pautrat and Marc Pollefeys
Abstract要約: 我々は、既存のモデルが照度変化に不変である能力を改善するために、リライトを通じて様々な画像データセットを拡大する方法を探る。我々は,エンコーダ・デコーダネットワークをベースとして,様々な入力シーンの照明の様々なバリエーションを迅速に生成できるツールを開発した。パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライゼーションベンチマークでより高いパフォーマンスを実現することが可能であることを実証した。
参考スコア（独自算出の注目度）: 75.96144853354362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: At the heart of the success of deep learning is the quality of the data. Through data augmentation, one can train models with better generalization capabilities and thus achieve greater results in their field of interest. In this work, we explore how to augment a varied set of image datasets through relighting so as to improve the ability of existing models to be invariant to illumination changes, namely for learned descriptors. We develop a tool, based on an encoder-decoder network, that is able to quickly generate multiple variations of the illumination of various input scenes whilst also allowing the user to define parameters such as the angle of incidence and intensity. We demonstrate that by training models on datasets that have been augmented with our pipeline, it is possible to achieve higher performance on localization benchmarks.
Abstract（参考訳）: ディープラーニングの成功の核心は、データの品質です。データ拡張により、より良い一般化能力でモデルを訓練し、興味のある分野においてより大きな結果を得ることができる。本研究では,既存のモデルの照明変化に対する不変性,すなわち学習用ディスクリプタの能力を向上させるため,画像データセットの多種多様な拡張方法について検討する。我々は,エンコーダ・デコーダネットワークをベースとしたツールを開発し,様々な入力シーンの照明の様々なバリエーションを迅速に生成すると同時に,入射角や強度などのパラメータをユーザが定義できるようにする。パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライズベンチマークでより高いパフォーマンスを達成できることを実証する。

関連論文リスト

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads [0.1679937788852768]
ビジョントランスフォーマー(ViT)は、データ内のグローバルな関係をキャプチャする自己認識機構を利用することで、画像処理タスクにおいて顕著なポテンシャルを示した。本研究では,高効率な分散トレーニングフレームワークであるDeepSpeedを活用し,ViTのスケーラビリティと性能を向上させることを目的とする。
論文参考訳（メタデータ） (2026-02-24T16:45:12Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Generalization Gap in Data Augmentation: Insights from Illumination [3.470401787749558]
実世界の照明条件下で訓練されたモデルと、拡張現実で訓練されたモデルとの一般化の相違について検討する。その結果,様々なデータ拡張手法を適用した結果,モデルの性能は大幅に向上した。しかし、様々なデータ拡張手法を利用した後も、顕著な一般化のギャップが残っている。
論文参考訳（メタデータ） (2024-04-11T07:11:43Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。上述の潜在対応をモデル化するための双レベルパラダイムを導入する。エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文参考訳（メタデータ） (2023-06-02T08:16:21Z)
Instance-Conditioned GAN Data Augmentation for Representation Learning [29.36473147430433]
DA_IC-GANは、学習可能なデータ拡張モジュールで、ほとんどの最先端のトレーニングレシピと組み合わせて、棚外で使用することができる。 DA_IC-GAN は最大容量モデルで 1%p から 2%p の精度を向上できることを示す。また,DA_IC-GANを自己指導型トレーニングレシピと組み合わせることで,いくつかの設定で1%pの精度向上が達成できることを示す。
論文参考訳（メタデータ） (2023-03-16T22:45:43Z)
Learning Representational Invariances for Data-Efficient Action Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文参考訳（メタデータ） (2021-03-30T17:59:49Z)
Learned Camera Gain and Exposure Control for Improved Visual Feature Detection and Matching [12.870196901446208]
我々は、環境照明の変化を考慮に入れたデータ駆動型アプローチを探求し、ビジュアル・オドメトリー(VO)や視覚同時像定位マッピング(SLAM)で使用する画像の品質を改善した。我々は、カメラゲインと露出時間パラメータを予測的に調整するために、深層畳み込みニューラルネットワークモデルを訓練する。我々は、我々のネットワークが劇的な照明変化を予想し、補うことができるような、広範囲な実世界の実験を通して実証する。
論文参考訳（メタデータ） (2021-02-08T16:46:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。