論文の概要: CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook
- arxiv url: http://arxiv.org/abs/2605.18257v1
- Date: Mon, 18 May 2026 11:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.509009
- Title: CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook
- Title(参考訳): CodeBind: 統一構成コードブックによるマルチモーダルアライメントのための疎結合表現学習
- Authors: Zeyu Chen, Jie Li, Kai Han,
- Abstract要約: 本稿では,多モード表現空間を最適化するフレームワークであるCodeBindを提案する。
CodeBindは、セマンティック一貫性のための共有コンポーネントと、モダリティと特異な詳細のための特定のコンポーネントに機能を分解する。
この設計では、共有コードブックがモダリティギャップを橋渡しし、モダリティ固有のコードブックが表現バイアスを軽減する構成ベクトル量子化方式を用いる。
- 参考スコア(独自算出の注目度): 24.224314755265556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representation alignment is pivotal for large language models and robotics. Traditional methods are often hindered by cross-modal information discrepancies and data scarcity, leading to suboptimal alignment spaces that overlook modality-unique features. We propose CodeBind, a framework that optimizes multimodal representation spaces through a modality-shared-specific codebook design. By incrementally aligning target and bridging modalities, CodeBind bypasses the need for fully paired data. Unlike traditional hard alignment, CodeBind decomposes features into shared components for semantic consistency and specific components for modality-unique details. This design utilizes a compositional vector quantization scheme, where a shared codebook bridges modality gaps and modality-specific codebooks mitigate representation bias by preventing dominant modalities from overshadowing others. Validated across nine modalities (text, image, video, audio, depth, thermal, tactile, 3D point cloud, EEG), CodeBind achieves state-of-the-art performance in multimodal classification and retrieval tasks.
- Abstract(参考訳): マルチモーダル表現アライメントは、大規模言語モデルとロボット工学にとって重要な要素である。
伝統的な手法は、しばしばクロスモーダルな情報格差とデータ不足によって妨げられ、モダリティと普遍的な特徴を見渡すような最適以下のアライメント空間に繋がる。
モダリティ共有型コードブック設計により,マルチモーダル表現空間を最適化するフレームワークであるCodeBindを提案する。
ターゲットを漸進的に整列させ、モダリティをブリッジすることで、CodeBindは完全なペアデータの必要性を回避できる。
従来のハードアライメントとは異なり、CodeBindは、機能をセマンティック一貫性のための共有コンポーネントと、モダリティと特異な詳細のための特定のコンポーネントに分解する。
この設計では、共有コードブックがモダリティギャップをブリッジし、モダリティ固有のコードブックが、支配的なモダリティが他を覆すのを防ぐことで、表現バイアスを軽減する構成ベクトル量子化方式を用いる。
CodeBindは9つのモード(テキスト、画像、ビデオ、オーディオ、ディープ、サーマル、触覚、3Dポイントクラウド、EEG)で検証され、マルチモーダル分類と検索タスクで最先端のパフォーマンスを達成する。
関連論文リスト
- Linking Modality Isolation in Heterogeneous Collaborative Perception [41.68601421239159]
そこで我々は, 横断的特徴コード機能変換(FCF)によってモダリティを円滑に整列させるフレームワークであるCodeAlignを提案する。
CodeAlignはFCF翻訳を学び、特徴を他のモダリティの対応するコードにマッピングし、対象のコード空間の機能に復号する。
3つのモードを統合する場合、CodeAlignは事前アライメント手法のトレーニングパラメータの8%しか必要とせず、通信負荷を1024倍に減らし、OPV2VとDAIRV2Xの両方のデータセットにおける最先端の知覚性能を実現する。
論文 参考訳(メタデータ) (2026-02-28T12:09:08Z) - Semantics Meet Signals: Dual Codebook Representationl Learning for Generative Recommendation [39.88791326869038]
このフレームワークは、協調フィルタリングコードブックとセマンティックコードブックの間に固定トークン予算を割り当てます。
軽量なMoEはCF固有の精度とセマンティックな一般化を動的にバランスさせ、アライメントと客観的な滑らかさは人気スペクトル全体のコヒーレンスを維持する。
パブリックとインダストリアルの両方のスケールのデータセットで実験を行い、FlexCodeが一貫して強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-15T05:51:38Z) - MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval [34.21875369884307]
MLLM(Multimodal large language model)は、入力を直接処理する統一エンコーダである。
フレキシブルで高度な一方で、従来のコントラスト学習で訓練された統一エンコーダは、モダリティのショートカットを学習しがちである。
この問題を軽減するためのモダリティ構成意識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T11:20:35Z) - UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation [5.286124283204446]
大規模でセマンティックに整合し、安定した視覚的トークン化を可能にするケースケードコードブックフレームワークであるUniCode$2$を提案する。
数百万のSigLIPシーケンスの埋め込みをクラスタ化することにより、500Kエントリのコードブックを構築します。
UniCode2は、さまざまなベンチマークで強力なパフォーマンスを提供し、安定性、セマンティクス、モジュール性を犠牲にすることなく、ビジュアルトークン空間をスケールできることを実証している。
論文 参考訳(メタデータ) (2025-06-25T07:57:09Z) - Universal Item Tokenization for Transferable Generative Recommendation [89.42584009980676]
本稿では、転送可能な生成レコメンデーションのためのユニバーサルアイテムトークン化手法であるUTGRecを提案する。
木構造コードブックを考案することにより、コンテンツ表現をアイテムトークン化のための対応するコードに識別する。
生のコンテンツ再構成には、アイテムテキストとイメージを離散表現から再構成するために、デュアルライトウェイトデコーダを用いる。
協調的知識統合においては,共起的アイテムが類似していると仮定し,共起的アライメントと再構築を通じて協調的信号を統合する。
論文 参考訳(メタデータ) (2025-04-06T08:07:49Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。