論文の概要: RORem: Training a Robust Object Remover with Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2501.00740v2
- Date: Thu, 23 Jan 2025 10:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:26.255781
- Title: RORem: Training a Robust Object Remover with Human-in-the-Loop
- Title(参考訳): RORem:人間によるロバストなオブジェクトリモーバーのトレーニング
- Authors: Ruibin Li, Tao Yang, Song Guo, Lei Zhang,
- Abstract要約: 高品質なペアリング学習データを作成するために,Human-in-the-loopを用いた半教師付き学習戦略を提案する。
まず、オープンソースのデータセットから60Kのトレーニングペアを収集し、初期オブジェクト除去モデルをトレーニングします。
次に、人間のフィードバックを利用して高品質なオブジェクト除去ペアを選択し、識別器を訓練して次のトレーニングデータ生成プロセスを自動化する。
- 参考スコア(独自算出の注目度): 18.008728724618006
- License:
- Abstract: Despite the significant advancements, existing object removal methods struggle with incomplete removal, incorrect content synthesis and blurry synthesized regions, resulting in low success rates. Such issues are mainly caused by the lack of high-quality paired training data, as well as the self-supervised training paradigm adopted in these methods, which forces the model to in-paint the masked regions, leading to ambiguity between synthesizing the masked objects and restoring the background. To address these issues, we propose a semi-supervised learning strategy with human-in-the-loop to create high-quality paired training data, aiming to train a Robust Object Remover (RORem). We first collect 60K training pairs from open-source datasets to train an initial object removal model for generating removal samples, and then utilize human feedback to select a set of high-quality object removal pairs, with which we train a discriminator to automate the following training data generation process. By iterating this process for several rounds, we finally obtain a substantial object removal dataset with over 200K pairs. Fine-tuning the pre-trained stable diffusion model with this dataset, we obtain our RORem, which demonstrates state-of-the-art object removal performance in terms of both reliability and image quality. Particularly, RORem improves the object removal success rate over previous methods by more than 18\%. The dataset, source code and trained model are available at https://github.com/leeruibin/RORem.
- Abstract(参考訳): 大幅な進歩にもかかわらず、既存の物体除去法は、不完全除去、不正な内容合成、およびぼやけた合成領域に苦慮し、成功率を低くする。
このような問題は、主に高品質なペアトレーニングデータの欠如と、これらの手法で採用されている自己監督型トレーニングパラダイムが原因であり、モデルにマスクされた領域をインペイントさせ、マスクされたオブジェクトの合成と背景の復元の曖昧さをもたらす。
これらの課題に対処するため、我々は、Robust Object Remover (RORem) のトレーニングを目的とした、高品質なペアリングトレーニングデータを作成するための、Human-in-the-loopを用いた半教師付き学習戦略を提案する。
まず、オープンソースデータセットから60Kのトレーニングペアを収集し、最初のオブジェクト除去モデルをトレーニングし、次に人間のフィードバックを利用して高品質なオブジェクト除去ペアを選択し、識別器をトレーニングして、次のトレーニングデータ生成プロセスを自動化する。
いくつかのラウンドでこのプロセスを反復することにより、最終的に200万以上のペアを持つ実質的なオブジェクト除去データセットを得る。
このデータセットを用いて事前学習した安定拡散モデルを微調整し、信頼性と画質の両方の観点から最先端の物体除去性能を示すRORemを得る。
特に、RORemは、従来の方法よりも18%以上のオブジェクト除去の成功率を改善する。
データセット、ソースコード、トレーニングされたモデルはhttps://github.com/leeruibin/RORem.orgで公開されている。
関連論文リスト
- Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Solving Inverse Problems with Score-Based Generative Priors learned from
Noisy Data [1.7969777786551424]
SURE-Scoreは、加法ガウス雑音で劣化したトレーニングサンプルを用いてスコアベースの生成モデルを学習するためのアプローチである。
2つの実践的応用において,SURE-Scoreの事前学習と逆問題に対する後続サンプリングの適用による一般化を実証する。
論文 参考訳(メタデータ) (2023-05-02T02:51:01Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for
Robotic Bin-picking [98.5984733963713]
コスト効率の良いロボットグルーピングを容易にするために,シミュレート・トゥ・リアルな6次元オブジェクトのポーズ推定のための反復的自己学習フレームワークを提案する。
我々は、豊富な仮想データを合成するためのフォトリアリスティックシミュレータを構築し、これを初期ポーズ推定ネットワークのトレーニングに利用する。
このネットワークは教師モデルの役割を担い、未ラベルの実データに対するポーズ予測を生成する。
論文 参考訳(メタデータ) (2022-04-14T15:54:01Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension [27.538957000237176]
人間は、モデルが正しい答えに失敗するように、逆さまに質問を作成する。
アノテーションループでは,より強力なモデルで36,000のサンプルを収集する。
その結果,非対向的なサンプルの学習は,非対向的なデータセットに強い一般化をもたらすことがわかった。
より強力なモデルは、より弱いループモデルで収集されたデータセットから学習できることが分かっています。
論文 参考訳(メタデータ) (2020-02-02T00:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。