論文の概要: Image Translation via Fine-grained Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2012.11193v1
- Date: Mon, 21 Dec 2020 09:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:33:51.423403
- Title: Image Translation via Fine-grained Knowledge Transfer
- Title(参考訳): きめ細かい知識伝達による画像翻訳
- Authors: Xuanhong Chen, Ziang Liu, Ting Qiu, Bingbing Ni, Naiyuan Liu, Xiwei
Hu, Yuhan Li
- Abstract要約: 本稿では,知識検索と伝達による画像翻訳を実現する,解釈可能な知識ベース画像翻訳フレームワークを提案する。
詳細は、プラグインアンドプレイとモデルに依存しない汎用知識ライブラリを構築し、タスク固有のスタイル、トーン、テクスチャパターンなどを覚えている。
- 参考スコア(独自算出の注目度): 36.898373109689814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prevailing image-translation frameworks mostly seek to process images via the
end-to-end style, which has achieved convincing results. Nonetheless, these
methods lack interpretability and are not scalable on different
image-translation tasks (e.g., style transfer, HDR, etc.). In this paper, we
propose an interpretable knowledge-based image-translation framework, which
realizes the image-translation through knowledge retrieval and transfer. In
details, the framework constructs a plug-and-play and model-agnostic general
purpose knowledge library, remembering task-specific styles, tones, texture
patterns, etc. Furthermore, we present a fast ANN searching approach, Bandpass
Hierarchical K-Means (BHKM), to cope with the difficulty of searching in the
enormous knowledge library. Extensive experiments well demonstrate the
effectiveness and feasibility of our framework in different image-translation
tasks. In particular, backtracking experiments verify the interpretability of
our method. Our code soon will be available at
https://github.com/AceSix/Knowledge_Transfer.
- Abstract(参考訳): 一般的な画像翻訳フレームワークは、画像の処理をエンドツーエンドスタイルで行おうとしている。
しかしながら、これらの手法は解釈可能性に欠けており、異なる画像翻訳タスク(スタイル転送、HDRなど)では拡張性がない。
本稿では,知識検索と伝達による画像翻訳を実現する,解釈可能な知識ベース画像翻訳フレームワークを提案する。
詳しくは、このフレームワークは、プラグアンドプレイとモデルに依存しない汎用知識ライブラリを構築し、タスク固有のスタイル、音調、テクスチャパターンなどを記憶している。
さらに,膨大な知識ライブラリの検索の難しさに対処すべく,バンドパス階層型k-means (bhkm) という高速検索手法を提案する。
広範な実験により,様々な画像変換タスクにおけるフレームワークの有効性と実現性が実証された。
特に,バックトラック実験は,本手法の解釈可能性を検証する。
私たちのコードはまもなくhttps://github.com/AceSix/Knowledge_Transfer.comで利用可能になります。
関連論文リスト
- AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Semi-Supervised Image-to-Image Translation using Latent Space Mapping [37.232496213047845]
半教師付き画像翻訳のための一般的なフレームワークを提案する。
私たちの一番の考え方は、画像空間ではなく、潜在機能空間の翻訳を学ぶことです。
低次元の特徴空間のおかげで、所望の写像関数を見つけるのが容易である。
論文 参考訳(メタデータ) (2022-03-29T05:14:26Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - A Thousand Words Are Worth More Than a Picture: Natural Language-Centric
Outside-Knowledge Visual Question Answering [47.1063091195119]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。
Transform-Retrieve-Generate(TRiG)フレームワークが提案されている。
実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-14T04:12:46Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - Few-Shot Unsupervised Image-to-Image Translation on complex scenes [0.0]
本研究では,1つのオブジェクトの翻訳のために開発された手法が,より多彩でコンテンツに富んだ画像に対してどのように機能するかを評価する。
本稿では,オブジェクト検出に基づくデータセットの拡張手法を提案する。さらに,オブジェクト検出のパワーを活用するために,FUNITフレームワークを適用する方法を提案する。
論文 参考訳(メタデータ) (2021-06-07T16:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。