論文の概要: Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
- arxiv url: http://arxiv.org/abs/2511.20561v1
- Date: Tue, 25 Nov 2025 17:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.592855
- Title: Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
- Title(参考訳): 統一型マルチモーダルモデルにおけるインフォーム生成の理解 : 解析から経路フォワードへ
- Authors: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan,
- Abstract要約: データ漏洩を回避するために、制御された合成データセットと組み合わせた分離評価フレームワークUniSandboxを紹介する。
本研究は, 推論生成と知識伝達の2つの重要な側面に主に反映される, 重要な理解・生成ギャップを明らかにした。
UniSandboxは、将来の統合アーキテクチャや、理解と生成のギャップを真に埋めるトレーニング戦略を設計するための予備的な洞察を提供する。
- 参考スコア(独自算出の注目度): 33.56471468540189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox
- Abstract(参考訳): 近年、統一マルチモーダルモデルに大きな進歩が見られたが、根本的な疑問が残る。
そこで本研究では,データ漏洩を回避し,詳細な解析を可能にするために,制御された合成データセットと組み合わせた分離評価フレームワークUniSandboxを紹介する。
本研究は, 推論生成と知識伝達の2つの重要な側面に主に反映される, 重要な理解・生成ギャップを明らかにした。
具体的には、生成タスクの推論において、理解モジュール内の明示的な連鎖(CoT)がギャップを効果的に橋渡しし、さらに自己学習アプローチがこの能力の内部化に成功し、生成中の暗黙的な推論を可能にすることを実証する。
さらに、知識伝達タスクでは、CoTが新たに学習した知識の検索を支援することで生成プロセスを支援すること、また、クエリベースのアーキテクチャが本質的に、この伝達に影響を与える潜伏したCoTのような特性を示すことを発見した。
UniSandboxは、将来の統合アーキテクチャや、理解と生成のギャップを真に埋めるトレーニング戦略を設計するための予備的な洞察を提供する。
コードとデータはhttps://github.com/PKU-YuanGroup/UniSandBoxで入手できる。
関連論文リスト
- A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation [18.99847259801634]
本稿では,RLAG(Reinforcement Learning from Augmented Generation)を提案し,ドメイン知識を大規模言語モデルに組み込む。
提案手法は, サンプリング世代間を反復的に循環し, 計算した報酬によってモデルを最適化する。
医学、法学、天文学、および現在のイベントデータセットにわたる実験結果から、提案手法がベースラインアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-24T14:30:16Z) - UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - PropMEND: Hypernetworks for Knowledge Propagation in LLMs [82.99849359892112]
本稿では,PropMENDという,ハイパーネットワークに基づく知識伝播手法を提案する。
インジェクションされた事実に回答が明記されていないマルチホップ質問に対して,ほぼ2倍の精度で回答を提示する。
我々はまた、ハイパーネットワークの一般化を評価するために、新しいデータセットである Controlled RippleEdit も導入した。
論文 参考訳(メタデータ) (2025-06-10T15:44:19Z) - Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-29T03:40:21Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens [54.40871421476035]
我々は、パーソナライズされた情報を統合された視覚言語モデル(VLM)に統合し、理解と生成を行うUniCTokensを提案する。
UniCTokensは、補完的なセマンティクスを活用するために統一された概念トークンのセットをトレーニングし、2つのパーソナライズされたタスクを強化した。
我々の研究は、理解の向上が生成を改善することを示し、生成プロセスは理解に価値ある洞察を与えることができる。
論文 参考訳(メタデータ) (2025-05-20T17:56:01Z) - DP-CRE: Continual Relation Extraction via Decoupled Contrastive Learning
and Memory Structure Preservation [4.303714963263037]
連続関係抽出(CRE)は、非定常データストリームから関係知識を漸進的に学習することを目的としている。
現在のリプレイベースのトレーニングパラダイムは、すべてのデータを均一に優先順位付けし、複数のラウンドでメモリサンプルをトレーニングする。
我々は、事前情報保存と新たな知識獲得のプロセスを分離するDecouPled CREフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-05T07:16:51Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。