論文の概要: Six-channel Image Representation for Cross-domain Object Detection
- arxiv url: http://arxiv.org/abs/2101.00561v1
- Date: Sun, 3 Jan 2021 04:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 11:38:15.139931
- Title: Six-channel Image Representation for Cross-domain Object Detection
- Title(参考訳): クロスドメインオブジェクト検出のための6チャンネル画像表現
- Authors: Tianxiao Zhang, Wenchi Ma, Guanghui Wang
- Abstract要約: ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
- 参考スコア(独自算出の注目度): 17.854940064699985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep learning models are data-driven and the excellent performance is
highly dependent on the abundant and diverse datasets. However, it is very hard
to obtain and label the datasets of some specific scenes or applications. If we
train the detector using the data from one domain, it cannot perform well on
the data from another domain due to domain shift, which is one of the big
challenges of most object detection models. To address this issue, some
image-to-image translation techniques are employed to generate some fake data
of some specific scenes to train the models. With the advent of Generative
Adversarial Networks (GANs), we could realize unsupervised image-to-image
translation in both directions from a source to a target domain and from the
target to the source domain. In this study, we report a new approach to making
use of the generated images. We propose to concatenate the original 3-channel
images and their corresponding GAN-generated fake images to form 6-channel
representations of the dataset, hoping to address the domain shift problem
while exploiting the success of available detection models. The idea of
augmented data representation may inspire further study on object detection and
other applications.
- Abstract(参考訳): ほとんどのディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
しかし、特定のシーンやアプリケーションのデータセットを取得してラベル付けするのは非常に難しい。
あるドメインからのデータを使って検出器を訓練すれば、ほとんどのオブジェクト検出モデルにおいて大きな課題であるドメインシフトのため、別のドメインからのデータにうまく対応できない。
この問題に対処するために、特定のシーンの偽データを生成してモデルをトレーニングするために、画像から画像への変換技術が採用されている。
generative adversarial networks (gans) の出現により、ソースからターゲットドメイン、ターゲットドメインからソースドメインへの双方向の教師なし画像から画像への変換を実現することができた。
本研究では,生成した画像を利用する新しい手法について報告する。
3チャンネル画像とそれに対応するgan生成の偽画像とを結合してデータセットの6チャンネル表現を形成することを提案し,利用可能な検出モデルの成功を生かしながら,領域シフト問題に対処する。
拡張データ表現のアイデアは、オブジェクト検出やその他の応用に関するさらなる研究を刺激する可能性がある。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Is in-domain data beneficial in transfer learning for landmarks
detection in x-ray images? [1.5348047288817481]
本研究では,大規模な自然画像データセットのみに事前学習したモデルに対して,小さな領域内X線画像データセットを使用することで,ランドマーク検出の精度が向上するかどうかを検討する。
我々の結果は、ドメイン内ソースデータセットを使用することで、ImageNetのドメイン外事前トレーニングに関して、限界があるか、まったく利益が得られないことを示している。
以上の結果から,大規模なアノテートデータセットが得られない場合の医用画像におけるロバストなランドマーク検出システムの開発が示唆された。
論文 参考訳(メタデータ) (2024-03-03T10:35:00Z) - Domain Bridge: Generative model-based domain forensic for black-box
models [20.84645356097581]
我々は、一般的なデータドメインだけでなく、その特定の属性も決定する拡張されたアプローチを導入する。
本手法では,エンコーダに画像埋め込みモデル,デコーダに生成モデルを用いる。
我々のアプローチの重要な強みは、生成モデルである安定拡散をトレーニングする拡張データセットであるLAION-5Bを活用することである。
論文 参考訳(メタデータ) (2024-02-07T07:57:43Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Few-shot Adaptive Object Detection with Cross-Domain CutMix [5.432990262699911]
オブジェクト検出では、データ量とコストはトレードオフであり、特定の領域における大量のデータ収集は労働集約的である。
本稿では,大規模な領域ギャップ問題を解決するデータ合成手法を提案する。
提案手法は,従来の手法とは全く異なる領域問題設定で高い精度を実現する。
論文 参考訳(メタデータ) (2022-08-31T01:26:10Z) - Deepfake Network Architecture Attribution [23.375381198124014]
既存のフェイク画像属性の研究は、GAN(Generative Adversarial Network)モデルでマルチクラス分類を行っている。
textitDeepfake Network Architecture Attribution に関する最初の研究を行い,アーキテクチャレベルでの偽画像の属性について述べる。
論文 参考訳(メタデータ) (2022-02-28T14:54:30Z) - Auto-Transfer: Learning to Route Transferrable Representations [77.30427535329571]
本稿では,適切なターゲット表現にソース表現をルートする方法を自動学習する,新しい対向型マルチアームバンディット手法を提案する。
最先端の知識伝達手法と比較すると,5%以上の精度向上が期待できる。
論文 参考訳(メタデータ) (2022-02-02T13:09:27Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。