論文の概要: In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation
- arxiv url: http://arxiv.org/abs/2404.09633v2
- Date: Wed, 06 Nov 2024 09:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:50.276909
- Title: In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation
- Title(参考訳): インコンテキスト翻訳:画像認識・処理・生成の統一を目指して
- Authors: Han Xue, Qianru Sun, Li Song, Wenjun Zhang, Zhiwu Huang,
- Abstract要約: 視覚認識,低レベル画像処理,条件付き画像生成を統合化するためのICT(In-Context Translation)を提案する。
ICTは、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。
実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 44.26537443476901
- License:
- Abstract: We propose In-Context Translation (ICT), a general learning framework to unify visual recognition (e.g., semantic segmentation), low-level image processing (e.g., denoising), and conditional image generation (e.g., edge-to-image synthesis). Thanks to unification, ICT significantly reduces the inherent inductive bias that comes with designing models for specific tasks, and it maximizes mutual enhancement across similar tasks. However, the unification across a large number of tasks is non-trivial due to various data formats and training pipelines. To this end, ICT introduces two designs. Firstly, it standardizes input-output data of different tasks into RGB image pairs, e.g., semantic segmentation data pairs an RGB image with its segmentation mask in the same RGB format. This turns different tasks into a general translation task between two RGB images. Secondly, it standardizes the training of different tasks into a general in-context learning, where "in-context" means the input comprises an example input-output pair of the target task and a query image. The learning objective is to generate the "missing" data paired with the query. The implicit translation process is thus between the query and the generated image. In experiments, ICT unifies ten vision tasks and showcases impressive performance on their respective benchmarks. Notably, ICT performs well across three major categories of computer vision tasks, while its two competitors (Painter and PromptDiffusion) are only effective in at most two of these task categories. In addition, compared to its competitors, ICT trained on only 4 RTX 3090 GPUs is shown to be more efficient and less costly in training.
- Abstract(参考訳): 視覚認識(セマンティックセグメンテーション)、低レベルの画像処理(例えば、デノイング)、条件付き画像生成(例えば、エッジ・ツー・イメージ合成)を統合化するための一般的な学習フレームワークであるICT(In-Context Translation)を提案する。
統合により、ICTは特定のタスクのモデルの設計に伴う固有の帰納バイアスを著しく減らし、類似タスク間の相互強化を最大化する。
しかし、さまざまなデータフォーマットやトレーニングパイプラインのため、多数のタスクをまたいだ統合は簡単ではない。
この目的のためにICTは2つの設計を導入する。
まず、異なるタスクの入力出力データをRGBイメージペアに標準化する。例えば、セマンティックセグメンテーションデータは同じRGBフォーマットで、そのセグメンテーションマスクとRGBイメージをペアリングする。
これにより、異なるタスクが2つのRGBイメージ間の一般的な翻訳タスクになる。
第二に、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。ここでは、入力が対象タスクの入力出力対とクエリイメージの例を含むことを意味する。
学習の目的は、クエリと組み合わせた"ミス"データを生成することだ。
したがって、暗黙の翻訳プロセスは、クエリと生成された画像の間のものである。
実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。
特に、ICTはコンピュータビジョンタスクの3つの主要なカテゴリでうまく機能する一方、その2つの競合(PainterとPromptDiffusion)は、これらのタスクカテゴリのほとんど2つでしか有効ではない。
さらに、競合他社と比較して、4つのRTX 3090 GPUでのみトレーニングされたICTは、トレーニングにおいてより効率的でコストのかかるものであることが示されている。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。