Fugu-MT 論文翻訳(概要): UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?

論文の概要: UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?

arxiv url: http://arxiv.org/abs/2512.23512v1
Date: Mon, 29 Dec 2025 14:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-30 22:37:30.546337
Title: UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?
Title（参考訳）: UniHetero: 大規模データスケールでのビジョンランゲージモデルのための生成エンハンス理解は可能か?
Authors: Fengjiao Chen, Minhao Jing, Weitao Lu, Yan Feng, Xiaoyu Li, Xuezhi Cao,
Abstract要約: 視覚言語による大規模モデルは、視覚的理解と視覚的生成タスクの統合に向かっている。本研究では,UniHeteroという簡潔な構造を持つ統一モデルについて,大規模プレトレーニング(>200Mサンプル)下で解析する。
参考スコア（独自算出の注目度）: 17.49769409149882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language large models are moving toward the unification of visual understanding and visual generation tasks. However, whether generation can enhance understanding is still under-explored on large data scale. In this work, we analysis the unified model with a concise structure, UniHetero, under large-scale pretraining (>200M samples). Our key observations are: (1) Generation can improve understanding, but Only if you generate Semantics, Not Pixels. (2) Generation reveals a superior Data Scaling trend and higher Data Utilization. (3) Autoregression on Input Embedding is effective to capture visual details.
Abstract（参考訳）: 視覚言語による大規模モデルは、視覚的理解と視覚的生成タスクの統合に向かっている。しかし、生成が理解を高めるかどうかは、大規模なデータスケールではまだ未調査である。本研究では,UniHeteroという簡潔な構造を持つ統一モデルについて,大規模事前学習(>200Mサンプル)下で解析する。 1) 生成は理解を改善することができるが、セマンティックスを生成する場合のみ、Pixelではない。 2) 生成は、優れたデータスケーリングトレンドと高いデータ利用を明らかにします。 (3)入力埋め込みの自己回帰は視覚的詳細を捉えるのに有効である。

関連論文リスト

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。 VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。 MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文参考訳（メタデータ） (2024-12-18T18:58:50Z)
Critical Data Size of Language Models from a Grokking Perspective [35.029074833552656]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文参考訳（メタデータ） (2024-01-19T03:24:36Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文参考訳（メタデータ） (2023-05-24T16:42:17Z)
Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。 VSRモデルに予測に基づく補助タスクを追加することを提案する。このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2022-02-26T07:21:00Z)
Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文参考訳（メタデータ） (2021-04-16T18:54:14Z)
Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文参考訳（メタデータ） (2021-03-29T06:35:24Z)
Knowledge-Enhanced Personalized Review Generation with Capsule Graph Neural Network [81.81662828017517]
カプセルグラフニューラルネットワークを用いた知識強調型PRGモデル(Caps-GNN)を提案する。我々の生成プロセスは、アスペクトシーケンス生成と文生成という2つの大きなステップを含む。組み込まれた知識グラフは、アスペクトレベルとワードレベルの両方でユーザの好みを高めることができる。
論文参考訳（メタデータ） (2020-10-04T03:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。