論文の概要: UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?
- arxiv url: http://arxiv.org/abs/2512.23512v2
- Date: Tue, 30 Dec 2025 13:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.633187
- Title: UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?
- Title(参考訳): UniHetero: 大規模データスケールでのビジョンランゲージモデルのための生成エンハンス理解は可能か?
- Authors: Fengjiao Chen, Minhao Jing, Weitao Lu, Yan Feng, Xiaoyu Li, Xuezhi Cao,
- Abstract要約: 統合視覚言語モデルにおける一般的な仮定は、生成を追加することで理解が自然に強化されるということである。
2M以上の事前トレーニングサンプルでは、生成はセマンティックレベルで動作している場合にのみ理解するのに役立つ。
統一世代理解は、理解だけでは不十分なスケーリング傾向を示す。
- 参考スコア(独自算出の注目度): 17.49769409149882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language large models are moving toward the unification of visual understanding and visual generation tasks. However, whether generation can enhance understanding is still under-explored on large data scale. In this work, we analysis the unified structure with a concise model, UniHetero, under large-scale pretraining (>200M samples). Our key observations are: (1) Generation can improve understanding, but Only if you generate Semantics, Not Pixels. A common assumption in unified vision-language models is that adding generation will naturally strengthen understanding. However, this is not always true at scale. At 200M+ pretraining samples, generation helps understanding only when it operates at the semantic level, i.e. when the model learns to autoregress high-level visual representations inside the LLM. Once pixel-level objectives (e.g., diffusion losses) directly interfere with the LLM, understanding performance often degrades. (2) Generation reveals a superior Data Scaling trend and higher Data Utilization. Unified generation-understanding demonstrates a superior scaling trend compared to understanding alone, revealing a more effective way to learn vision-only knowledge directive from vision modality rather than captioning to text. (3) Autoregression on Input Embedding is effective to capture visual details. Compared to the commonly-used vision encoder, make visual autoregression on input embedding shows less cumulative error and is modality independent, which can be extend to all modalities. The learned semantic representations capture visual information such as objects, locations, shapes, and colors; further enable pixel-level image generation.
- Abstract(参考訳): 視覚言語による大規模モデルは、視覚的理解と視覚的生成タスクの統合に向かっている。
しかし、生成が理解を高めるかどうかは、大規模なデータスケールではまだ未調査である。
本研究では,UniHeteroという簡潔なモデルを用いて,大規模プレトレーニング(>200M)下での統一構造を解析する。
1) 生成は理解を改善することができるが、セマンティックスを生成する場合のみ、Pixelではない。
統合視覚言語モデルにおける一般的な仮定は、生成を追加することで理解が自然に強化されるということである。
しかし、これは必ずしも大規模であるとは限らない。
2M以上の事前学習サンプルでは、生成は意味レベルで動作した場合、すなわちモデルがLLM内の高レベルな視覚表現を自動回帰することを学ぶときのみ、理解するのに役立つ。
ピクセルレベルの目標(例えば拡散損失)がLSMに直接干渉すると、性能が劣化する。
2) 生成は、優れたデータスケーリングトレンドと高いデータ利用を明らかにします。
統一世代理解は、単独で理解するよりも優れたスケーリング傾向を示し、テキストにキャプションするよりも視覚のみの知識を視覚的モダリティから学習するより効果的な方法を明らかにする。
(3)入力埋め込みの自己回帰は視覚的詳細を捉えるのに有効である。
一般的に使用される視覚エンコーダと比較して、入力埋め込みにおける視覚的自己回帰は累積誤差が少なく、すべてのモダリティに拡張可能なモダリティに依存しない。
学習された意味表現は、オブジェクト、場所、形状、色などの視覚情報をキャプチャし、さらにピクセルレベルの画像生成を可能にする。
関連論文リスト
- MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。
VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。
MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文 参考訳(メタデータ) (2024-12-18T18:58:50Z) - Critical Data Size of Language Models from a Grokking Perspective [35.029074833552656]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文 参考訳(メタデータ) (2024-01-19T03:24:36Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Knowledge-Enhanced Personalized Review Generation with Capsule Graph
Neural Network [81.81662828017517]
カプセルグラフニューラルネットワークを用いた知識強調型PRGモデル(Caps-GNN)を提案する。
我々の生成プロセスは、アスペクトシーケンス生成と文生成という2つの大きなステップを含む。
組み込まれた知識グラフは、アスペクトレベルとワードレベルの両方でユーザの好みを高めることができる。
論文 参考訳(メタデータ) (2020-10-04T03:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。