論文の概要: Paired Image to Image Translation for Strikethrough Removal From
Handwritten Words
- arxiv url: http://arxiv.org/abs/2201.09633v1
- Date: Mon, 24 Jan 2022 12:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:32:01.227317
- Title: Paired Image to Image Translation for Strikethrough Removal From
Handwritten Words
- Title(参考訳): 手書き単語からのストライクスルー除去のための画像対画像翻訳
- Authors: Raphaela Heil, Ekta Vats, Anders Hast
- Abstract要約: 本稿では,手書き単語からストライクスルーストロークを除去する画像翻訳手法におけるペア画像の利用について検討する。
いくつかの単純な畳み込み層から、より深いものまで、Denseブロックを使用する4つの異なるニューラルネットワークアーキテクチャが検討されている。
1つの合成および1つの真のペアストライクスルーデータセットから得られた実験結果は、提案されたペアモデルがCycleGANベースの技術よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transcribing struck-through, handwritten words, for example for the purpose
of genetic criticism, can pose a challenge to both humans and machines, due to
the obstructive properties of the superimposed strokes. This paper investigates
the use of paired image to image translation approaches to remove strikethrough
strokes from handwritten words. Four different neural network architectures are
examined, ranging from a few simple convolutional layers to deeper ones,
employing Dense blocks. Experimental results, obtained from one synthetic and
one genuine paired strikethrough dataset, confirm that the proposed paired
models outperform the CycleGAN-based state of the art, while using less than a
sixth of the trainable parameters.
- Abstract(参考訳): 例えば、遺伝子批判の目的で手書きの単語を翻訳することは、重畳された脳卒中の障害性のため、人間と機械の両方に困難をもたらす可能性がある。
本稿では,手書き単語からストライクスルーストロークを除去する画像翻訳手法におけるペア画像の利用について検討する。
いくつかの単純な畳み込み層からより深いものまで、Denseブロックを使用する4つの異なるニューラルネットワークアーキテクチャが検討されている。
1つの合成および1つの真のペアストライクスルーデータセットから得られた実験結果は、提案されたペアモデルは、トレーニング可能なパラメータの6分の1未満を使用しながら、CycleGANベースの技術よりも優れていることを確認した。
関連論文リスト
- The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - CONSENT: Context Sensitive Transformer for Bold Words Classification [3.9801146118723474]
コンテキスト依存オブジェクト分類のためのContext SENsitive Transformerフレームワークを提案する。
我々は、エンドツーエンドのトランスフォーマーベースのニューラルネットワークアンサンブルを使用して、文脈依存のバイナリ分類(すなわち、太字対非ボルト)を学ぶ。
筆者らは,手ポーズを描写した2ドルの絵が描かれたシリーズの勝者を決定するために,モデルのトレーニングを行うことにより,岩紙シッセのゲームに対する最先端の競争結果を実証した。
論文 参考訳(メタデータ) (2022-05-16T13:50:33Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Content-Preserving Unpaired Translation from Simulated to Realistic
Ultrasound Images [12.136874314973689]
本稿では,シミュレーション画像と実画像の出現ギャップを橋渡しする新しい画像翻訳フレームワークを提案する。
この目的を達成するために,シミュレートされた画像とセマンティックセグメンテーションを併用する。
論文 参考訳(メタデータ) (2021-03-09T22:35:43Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。