Fugu-MT 論文翻訳(概要): In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation

論文の概要: In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation

arxiv url: http://arxiv.org/abs/2404.09633v1
Date: Mon, 15 Apr 2024 10:05:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 12:50:12.940455
Title: In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation
Title（参考訳）: インコンテキスト翻訳:画像認識・処理・生成の統一を目指して
Authors: Han Xue, Qianru Sun, Li Song, Wenjun Zhang, Zhiwu Huang,
Abstract要約: 視覚認識(セマンティックセグメンテーションなど)、低レベルの画像処理(デノイングなど)、条件付き画像生成(エッジ・ツー・イメージ合成など)を統合化するためのICT(In-Context Translation)を提案する。 ICTは、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。
参考スコア（独自算出の注目度）: 44.26537443476901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose In-Context Translation (ICT), a general learning framework to unify visual recognition (e.g., semantic segmentation), low-level image processing (e.g., denoising), and conditional image generation (e.g., edge-to-image synthesis). Thanks to unification, ICT significantly reduces the inherent inductive bias that comes with designing models for specific tasks, and it maximizes mutual enhancement across similar tasks. However, the unification across a large number of tasks is non-trivial due to various data formats and training pipelines. To this end, ICT introduces two designs. Firstly, it standardizes input-output data of different tasks into RGB image pairs, e.g., semantic segmentation data pairs an RGB image with its segmentation mask in the same RGB format. This turns different tasks into a general translation task between two RGB images. Secondly, it standardizes the training of different tasks into a general in-context learning, where "in-context" means the input comprises an example input-output pair of the target task and a query image. The learning objective is to generate the "missing" data paired with the query. The implicit translation process is thus between the query and the generated image. In experiments, ICT unifies ten vision tasks and showcases impressive performance on their respective benchmarks. Notably, compared to its competitors, e.g., Painter and PromptDiffusion, ICT trained on only 4 RTX 3090 GPUs is shown to be more efficient and less costly in training.
Abstract（参考訳）: 視覚認識(セマンティックセグメンテーション)、低レベル画像処理(例えば、デノイング)、条件付き画像生成(例えば、エッジ・ツー・イメージ合成)を統合化するための一般的な学習フレームワークであるICT(In-Context Translation)を提案する。統合により、ICTは特定のタスクのモデルの設計に伴う固有の帰納バイアスを著しく減らし、類似タスク間の相互強化を最大化する。しかし、さまざまなデータフォーマットやトレーニングパイプラインのため、多数のタスクをまたいだ統合は簡単ではない。この目的のためにICTは2つの設計を導入する。まず、異なるタスクの入力出力データをRGBイメージペアに標準化する。例えば、セマンティックセグメンテーションデータは同じRGBフォーマットで、そのセグメンテーションマスクとRGBイメージをペアリングする。これにより、異なるタスクが2つのRGBイメージ間の一般的な翻訳タスクになる。第二に、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。ここでは、入力が対象タスクの入力出力対とクエリイメージの例を含むことを意味する。学習の目的は、クエリと組み合わせた"ミス"データを生成することだ。したがって、暗黙の翻訳プロセスは、クエリと生成された画像の間のものである。実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。特に、競合他社であるPapererやPromptDiffusionと比較して、4つのRTX 3090 GPUでトレーニングされたICTは、トレーニングにおいてより効率的で低コストであることが示されている。

関連論文リスト

Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文参考訳（メタデータ） (2026-01-07T19:19:44Z)
Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification [25.3625307168105]
人物再識別 (ReID) は、視覚的クエリ (image-to-image, I2I) とテキスト記述 (text-to-image, T2I) のいずれかを対象とする歩行者画像の検索を目的とする。
論文参考訳（メタデータ） (2025-11-17T16:39:49Z)
MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。本稿では,両者の相違に対処するための2段階の枠組みを提案する。 MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-31T08:49:05Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
Multi-Task Self-Supervised Learning for Image Segmentation Task [0.0]
本稿では,深度予測と表面正規化を用いたマルチタスク学習によるセマンティックセグメンテーション性能向上のための自己指導手法を提案する。 2. マルチタスク学習に用いる異なる種類の重み付け技術(UW, Nash-MTL)の性能評価
論文参考訳（メタデータ） (2023-02-05T21:25:59Z)
Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。本研究では,画像意味関係生成(ISRG)を提案する。
論文参考訳（メタデータ） (2022-10-19T16:15:19Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (2021-11-19T03:23:10Z)
Dual Graph Convolutional Networks with Transformer and Curriculum Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文参考訳（メタデータ） (2021-08-05T04:57:06Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。