論文の概要: HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization
- arxiv url: http://arxiv.org/abs/2603.15228v1
- Date: Mon, 16 Mar 2026 13:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.296479
- Title: HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization
- Title(参考訳): HYDRA:表現調和トークン化によるマルチモーダル生成と理解の統合
- Authors: Xuerui Qiu, Yutao Cui, Guozhen Zhang, Junzhe Li, JiaKui Hu, Xiao Zhang, Yang Li, Songtao Liu, Miles Yang, Yu Shi, Zhao Zhong, Liefeng Bo,
- Abstract要約: 単一パラメータ空間内に知覚と生成を統合するネイティブ統一フレームワークHYDRAを提案する。
ビジュアル再構成(rFID 0.08)とGenEval(0.86)、DPG-Bench(86.4)、WISE(0.53)の上位世代のパフォーマンスのベンチマークを設定し、同時に8つの難解な理解ベンチマークで平均10.0ポイントを上回った。
- 参考スコア(独自算出の注目度): 39.7729309802775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Models struggle to bridge the fundamental gap between the abstract representations needed for visual understanding and the detailed primitives required for generation. Existing approaches typically compromise by employing decoupled encoders, stacking representation encoder atop VAEs, or utilizing discrete quantization. However, these methods often disrupt information coherence and lead to optimization conflicts. To this end, we introduce HYDRA-TOK, a representation-harmonized pure ViT in the insight that visual modeling should evolve from generation to understanding. HYDRA-TOK reformulates the standard backbone into a progressive learner that transitions from a Gen-ViT, which captures structure-preserving primitives, to a Sem-ViT for semantic encoding. Crucially, this transition is mediated by a Generation-Semantic Bottleneck (GSB), which compresses features into a low-dimensional space to filter noise for robust synthesis, then restores dimensionality to empower complex semantic comprehension. Built upon this foundation, we present HYDRA, a native unified framework integrating perception and generation within a single parameter space. Extensive experiments establish HYDRA as a new state-of-the-art. It sets a benchmark in visual reconstruction (rFID 0.08) and achieves top-tier generation performance on GenEval (0.86), DPG-Bench (86.4), and WISE (0.53), while simultaneously outperforming previous native UMMs by an average of 10.0 points across eight challenging understanding benchmarks.
- Abstract(参考訳): 統一マルチモーダルモデル(Unified Multimodal Models)は、視覚的理解に必要な抽象表現と、生成に必要な詳細なプリミティブのギャップを埋めることに苦労する。
既存のアプローチは典型的には、分離エンコーダ、VAE上の表現エンコーダの積み重ね、離散量子化の利用によって妥協する。
しかし、これらの手法は情報コヒーレンスを乱し、最適化の衝突を引き起こすことが多い。
この目的のために、視覚モデリングは生成から理解まで進化するべきだという洞察のもとに、表現調和された純粋なViTであるHYDRA-TOKを紹介する。
HYDRA-TOKは、構造保存プリミティブをキャプチャするGen-ViTからセマンティックエンコーディングのためのSem-ViTに遷移するプログレッシブラーナに標準バックボーンを書き換える。
重要なことは、この遷移はジェネレーション・セマンティック・ボトルネック (GSB) によって媒介され、これは特徴を低次元空間に圧縮し、頑健な合成のためにノイズをフィルタリングし、次に次元を復元して複雑な意味的理解を促進する。
この基盤の上に構築されたHYDRAは、知覚と生成を単一のパラメータ空間に統合したネイティブ統合フレームワークである。
大規模な実験はHYDRAを新たな最先端技術として確立する。
ビジュアル再構成(rFID 0.08)のベンチマークを設定し、GenEval(0.86)、DPG-Bench(86.4)、WISE(0.53)の上位世代のパフォーマンスを達成し、同時に8つの挑戦的な理解ベンチマークで平均10.0ポイントを達成している。
関連論文リスト
- EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation [68.09145886228585]
理解には高レベルのセマンティック抽象化が必要であり、画像生成には微細なピクセルレベルの表現が必要である。
EvoTokは、共有潜在空間内の残差進化過程を通じてこれらの要求を整合する統合画像トークンである。
EvoTokは9つの視覚的理解ベンチマークのうち7つで有望なパフォーマンスを示しており、GenEvalやGenAI-Benchといった画像生成ベンチマークでは顕著な結果を示している。
論文 参考訳(メタデータ) (2026-03-12T16:13:43Z) - DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping [5.520073359436354]
オープンセットセマンティックマッピングは、言語駆動型ロボット知覚を可能にする。
現在のインスタンス中心のアプローチは、コンテキスト分離と計算コストの高い作物ベースの特徴抽出によってボトルネック化されている。
DISC(Dense Integrated Semantic Context)を導入し,新しいシングルパス,距離重み付き抽出機構を特徴とする。
論文 参考訳(メタデータ) (2026-03-04T10:47:06Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。