論文の概要: Six-channel Image Representation for Cross-domain Object Detection
- arxiv url: http://arxiv.org/abs/2101.00561v1
- Date: Sun, 3 Jan 2021 04:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 11:38:15.139931
- Title: Six-channel Image Representation for Cross-domain Object Detection
- Title(参考訳): クロスドメインオブジェクト検出のための6チャンネル画像表現
- Authors: Tianxiao Zhang, Wenchi Ma, Guanghui Wang
- Abstract要約: ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
- 参考スコア(独自算出の注目度): 17.854940064699985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep learning models are data-driven and the excellent performance is
highly dependent on the abundant and diverse datasets. However, it is very hard
to obtain and label the datasets of some specific scenes or applications. If we
train the detector using the data from one domain, it cannot perform well on
the data from another domain due to domain shift, which is one of the big
challenges of most object detection models. To address this issue, some
image-to-image translation techniques are employed to generate some fake data
of some specific scenes to train the models. With the advent of Generative
Adversarial Networks (GANs), we could realize unsupervised image-to-image
translation in both directions from a source to a target domain and from the
target to the source domain. In this study, we report a new approach to making
use of the generated images. We propose to concatenate the original 3-channel
images and their corresponding GAN-generated fake images to form 6-channel
representations of the dataset, hoping to address the domain shift problem
while exploiting the success of available detection models. The idea of
augmented data representation may inspire further study on object detection and
other applications.
- Abstract(参考訳): ほとんどのディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
しかし、特定のシーンやアプリケーションのデータセットを取得してラベル付けするのは非常に難しい。
あるドメインからのデータを使って検出器を訓練すれば、ほとんどのオブジェクト検出モデルにおいて大きな課題であるドメインシフトのため、別のドメインからのデータにうまく対応できない。
この問題に対処するために、特定のシーンの偽データを生成してモデルをトレーニングするために、画像から画像への変換技術が採用されている。
generative adversarial networks (gans) の出現により、ソースからターゲットドメイン、ターゲットドメインからソースドメインへの双方向の教師なし画像から画像への変換を実現することができた。
本研究では,生成した画像を利用する新しい手法について報告する。
3チャンネル画像とそれに対応するgan生成の偽画像とを結合してデータセットの6チャンネル表現を形成することを提案し,利用可能な検出モデルの成功を生かしながら,領域シフト問題に対処する。
拡張データ表現のアイデアは、オブジェクト検出やその他の応用に関するさらなる研究を刺激する可能性がある。
関連論文リスト
- Community Forensics: Using Thousands of Generators to Train Fake Image Detectors [15.166026536032142]
AI生成画像を検出する上で重要な課題の1つは、これまで目に見えない生成モデルによって作成された画像を見つけることである。
従来よりも大きく,多様である新しいデータセットを提案する。
得られたデータセットには、4803の異なるモデルからサンプリングされた2.7Mイメージが含まれている。
論文 参考訳(メタデータ) (2024-11-06T18:59:41Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Transfer learning with generative models for object detection on limited datasets [1.4999444543328293]
海洋生物学などいくつかの分野では、各物体の周囲に有界箱を正しくラベル付けする必要がある。
本稿では,一般的なシナリオに有効な伝達学習フレームワークを提案する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
論文 参考訳(メタデータ) (2024-02-09T21:17:31Z) - Domain Bridge: Generative model-based domain forensic for black-box
models [20.84645356097581]
我々は、一般的なデータドメインだけでなく、その特定の属性も決定する拡張されたアプローチを導入する。
本手法では,エンコーダに画像埋め込みモデル,デコーダに生成モデルを用いる。
我々のアプローチの重要な強みは、生成モデルである安定拡散をトレーニングする拡張データセットであるLAION-5Bを活用することである。
論文 参考訳(メタデータ) (2024-02-07T07:57:43Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Deepfake Network Architecture Attribution [23.375381198124014]
既存のフェイク画像属性の研究は、GAN(Generative Adversarial Network)モデルでマルチクラス分類を行っている。
textitDeepfake Network Architecture Attribution に関する最初の研究を行い,アーキテクチャレベルでの偽画像の属性について述べる。
論文 参考訳(メタデータ) (2022-02-28T14:54:30Z) - Auto-Transfer: Learning to Route Transferrable Representations [77.30427535329571]
本稿では,適切なターゲット表現にソース表現をルートする方法を自動学習する,新しい対向型マルチアームバンディット手法を提案する。
最先端の知識伝達手法と比較すると,5%以上の精度向上が期待できる。
論文 参考訳(メタデータ) (2022-02-02T13:09:27Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。