論文の概要: Unison: A Fully Automatic, Task-Universal, and Low-Cost Framework for Unified Understanding and Generation
- arxiv url: http://arxiv.org/abs/2512.07747v1
- Date: Mon, 08 Dec 2025 17:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.984051
- Title: Unison: A Fully Automatic, Task-Universal, and Low-Cost Framework for Unified Understanding and Generation
- Title(参考訳): Unison: 統一された理解と生成のための完全自動、タスクユニバーサル、低コストフレームワーク
- Authors: Shihao Zhao, Yitong Chen, Zeyinzi Jiang, Bojia Zi, Shaozhe Hao, Yu Liu, Chaojie Mao, Kwan-Yee K. Wong,
- Abstract要約: 統一された理解と生成はマルチモーダル学習において非常に魅力的な研究方向である。
事前学習モデルの性能を良好に保ちつつ、2段階のスキームを取り入れたUnisonを提案する。
トレーニングコストが非常に低いため、テキスト、画像、ビデオ理解など、さまざまなマルチモーダル理解タスクをカバーしています。
また,ユーザの意図を自動的に解析し,目的のタスクタイプを判断し,対応するタスクに必要なメタ情報を正確に抽出する能力も備えている。
- 参考スコア(独自算出の注目度): 29.971317846027826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified understanding and generation is a highly appealing research direction in multimodal learning. There exist two approaches: one trains a transformer via an auto-regressive paradigm, and the other adopts a two-stage scheme connecting pre-trained understanding and generative models for alignment fine-tuning. The former demands massive data and computing resources unaffordable for ordinary researchers. Though the latter requires a lower training cost, existing works often suffer from limited task coverage or poor generation quality. Both approaches lack the ability to parse input meta-information (such as task type, image resolution, video duration, etc.) and require manual parameter configuration that is tedious and non-intelligent. In this paper, we propose Unison which adopts the two-stage scheme while preserving the capabilities of the pre-trained models well. With an extremely low training cost, we cover a variety of multimodal understanding tasks, including text, image, and video understanding, as well as diverse generation tasks, such as text-to-visual content generation, editing, controllable generation, and IP-based reference generation. We also equip our model with the ability to automatically parse user intentions, determine the target task type, and accurately extract the meta-information required for the corresponding task. This enables full automation of various multimodal tasks without human intervention. Experiments demonstrate that, under a low-cost setting of only 500k training samples and 50 GPU hours, our model can accurately and automatically identify tasks and extract relevant parameters, and achieve superior performance across a variety of understanding and generation tasks.
- Abstract(参考訳): 統一された理解と生成はマルチモーダル学習において非常に魅力的な研究方向である。
1つは自己回帰パラダイムを介して変圧器を訓練し、もう1つは事前学習された理解と微調整のための生成モデルを結合した2段階のスキームを採用する。
前者は、一般の研究者には耐え難い膨大なデータと計算資源を要求する。
後者はトレーニングコストの削減を必要とするが、既存の作業はタスクカバレッジの制限や生成品質の低下に悩まされることが多い。
どちらのアプローチも、入力メタ情報(タスクタイプ、画像解像度、ビデオの長さなど)を解析する機能がなく、面倒で非知的な手動パラメータ設定を必要とする。
本稿では,事前学習モデルの性能を良好に保ちつつ,2段階のスキームを取り入れたUnisonを提案する。
トレーニングコストが極端に低いため、テキスト、画像、ビデオ理解などの多モーダルな理解タスクや、テキスト対視覚コンテンツ生成、編集、制御可能な生成、IPベースの参照生成など、さまざまな生成タスクをカバーしています。
また,ユーザの意図を自動的に解析し,目的のタスクタイプを判断し,対応するタスクに必要なメタ情報を正確に抽出する能力も備えている。
これにより、人間の介入なしに様々なマルチモーダルタスクを完全に自動化できる。
実験により,500kのトレーニングサンプルと50GPU時間の安価な設定で,我々のモデルはタスクを正確に自動同定し,関連するパラメータを抽出し,さまざまな理解および生成タスクに対して優れた性能を実現することができることがわかった。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。