論文の概要: In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation
- arxiv url: http://arxiv.org/abs/2404.09633v1
- Date: Mon, 15 Apr 2024 10:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:50:12.940455
- Title: In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation
- Title(参考訳): インコンテキスト翻訳:画像認識・処理・生成の統一を目指して
- Authors: Han Xue, Qianru Sun, Li Song, Wenjun Zhang, Zhiwu Huang,
- Abstract要約: 視覚認識(セマンティックセグメンテーションなど)、低レベルの画像処理(デノイングなど)、条件付き画像生成(エッジ・ツー・イメージ合成など)を統合化するためのICT(In-Context Translation)を提案する。
ICTは、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。
実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 44.26537443476901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose In-Context Translation (ICT), a general learning framework to unify visual recognition (e.g., semantic segmentation), low-level image processing (e.g., denoising), and conditional image generation (e.g., edge-to-image synthesis). Thanks to unification, ICT significantly reduces the inherent inductive bias that comes with designing models for specific tasks, and it maximizes mutual enhancement across similar tasks. However, the unification across a large number of tasks is non-trivial due to various data formats and training pipelines. To this end, ICT introduces two designs. Firstly, it standardizes input-output data of different tasks into RGB image pairs, e.g., semantic segmentation data pairs an RGB image with its segmentation mask in the same RGB format. This turns different tasks into a general translation task between two RGB images. Secondly, it standardizes the training of different tasks into a general in-context learning, where "in-context" means the input comprises an example input-output pair of the target task and a query image. The learning objective is to generate the "missing" data paired with the query. The implicit translation process is thus between the query and the generated image. In experiments, ICT unifies ten vision tasks and showcases impressive performance on their respective benchmarks. Notably, compared to its competitors, e.g., Painter and PromptDiffusion, ICT trained on only 4 RTX 3090 GPUs is shown to be more efficient and less costly in training.
- Abstract(参考訳): 視覚認識(セマンティックセグメンテーション)、低レベル画像処理(例えば、デノイング)、条件付き画像生成(例えば、エッジ・ツー・イメージ合成)を統合化するための一般的な学習フレームワークであるICT(In-Context Translation)を提案する。
統合により、ICTは特定のタスクのモデルの設計に伴う固有の帰納バイアスを著しく減らし、類似タスク間の相互強化を最大化する。
しかし、さまざまなデータフォーマットやトレーニングパイプラインのため、多数のタスクをまたいだ統合は簡単ではない。
この目的のためにICTは2つの設計を導入する。
まず、異なるタスクの入力出力データをRGBイメージペアに標準化する。例えば、セマンティックセグメンテーションデータは同じRGBフォーマットで、そのセグメンテーションマスクとRGBイメージをペアリングする。
これにより、異なるタスクが2つのRGBイメージ間の一般的な翻訳タスクになる。
第二に、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。ここでは、入力が対象タスクの入力出力対とクエリイメージの例を含むことを意味する。
学習の目的は、クエリと組み合わせた"ミス"データを生成することだ。
したがって、暗黙の翻訳プロセスは、クエリと生成された画像の間のものである。
実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。
特に、競合他社であるPapererやPromptDiffusionと比較して、4つのRTX 3090 GPUでトレーニングされたICTは、トレーニングにおいてより効率的で低コストであることが示されている。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Semantic RGB-D Image Synthesis [22.137419841504908]
この問題に対処するために,意味的RGB-D画像合成を導入する。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータには対応できない。
意味的レイアウトのモーダル非依存情報とモーダル依存情報とを分離したマルチモーダルデータのジェネレータを提案する。
論文 参考訳(メタデータ) (2023-08-22T11:16:24Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。