論文の概要: Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder
- arxiv url: http://arxiv.org/abs/2603.05528v1
- Date: Fri, 27 Feb 2026 06:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.091172
- Title: Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder
- Title(参考訳): Omni-C:不均一なモーダルを1次元エンコーダに圧縮する
- Authors: Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão,
- Abstract要約: ヘテロジニアスモダリティ間の競合共有表現を学習する単一高密度トランスフォーマーベースのエンコーダであるOmni-Cを提案する。
バックボーン内のパラメータ共有を最大化することにより、Omni-CはMoE、ペア管理、ルーティングを必要とせずに、モダリティ間の競合を効果的に軽減する。
実験では、Omni-Cは単調タスクとクロスモデルタスクのエキスパートモデルに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.13981375699951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal systems often rely on separate expert modality encoders which cause linearly scaling complexity and computational overhead with added modalities. While unified Omni-models address this via Mixture-of-Expert (MoE) architectures with specialized experts and routing, they still inflate parameter counts and introduce routing overhead. In this paper, we propose Omni-C (Omni-Compress), a single dense Transformer-based encoder that learns competitive shared representations across heterogeneous modalities--images, audio, and text--through unimodal contrastive pretraining on large-scale unaligned data. By maximizing parameter sharing in the backbone and using lightweight modality-specific projection heads, Omni-C effectively mitigates inter-modality conflicts without requiring MoE, paired supervision, or routing. This design supports efficient deployment on memory-constrained systems via sequential modality processing and low-memory inference, eliminating the need for parallel expert loading or specialized hardware. Experiments show Omni-C achieves performance comparable to expert models in unimodal and cross-model tasks, with modest zero-shot degradation on audio and text that is largely recovered through lightweight linear probing or parameter efficient fine-tuning. The unified architecture substantially reduces inference memory usage compared to multi-encoder baselines, advancing efficient and scalable multimodal learning.
- Abstract(参考訳): 最近のマルチモーダルシステムは、しばしば異なる専門家のモダリティエンコーダに依存しており、それによって線形に複雑さと計算オーバーヘッドが増す。
統一されたOmniモデルは、専門のエキスパートとルーティングを持つMixture-of-Expert(MoE)アーキテクチャを介してこの問題に対処するが、パラメータ数を減らし、ルーティングオーバーヘッドを導入する。
本稿では,Omni-C (Omni-Compress) を提案する。Omni-C (Omni-Compress) は,大規模な非整合データに基づいて,画像,音声,テキスト間の競合共有表現を学習する,高密度トランスフォーマーベースのエンコーダである。
バックボーン内のパラメータ共有を最大化し、軽量なモダリティ特異的プロジェクションヘッドを使用することで、Omni-CはMoE、ペア監視、ルーティングを必要とせずに、モダリティ間の競合を効果的に軽減する。
この設計は、シーケンシャルなモダリティ処理と低メモリ推論を通じて、メモリ制約のあるシステムへの効率的なデプロイをサポートし、並列専門家の負荷や特別なハードウェアを必要としない。
実験により、Omni-Cは、軽量な線形探索やパラメータ効率のよい微調整によって大半を回復したオーディオおよびテキストにおける、控えめなゼロショット劣化を伴って、単調およびクロスモデルタスクのエキスパートモデルに匹敵する性能を達成することが示された。
統一アーキテクチャは、マルチエンコーダベースラインと比較して、推論メモリの使用を著しく削減し、効率的でスケーラブルなマルチモーダル学習を促進する。
関連論文リスト
- Dynamic Expert Sharing: Decoupling Memory from Parallelism in Mixture-of-Experts Diffusion LLMs [22.399470395813577]
Dynamic Expert Sharing (DES) は、MoE最適化をトークン中心のプルーニングからシーケンシャルレベルのコアセット選択に移行する新しいテクニックである。
DESは、独自の専門家アクティベーションを55%以上削減し、レイテンシを最大38%削減し、バニラ精度の99%を維持している。
論文 参考訳(メタデータ) (2026-01-31T20:01:47Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking [17.095655627061934]
本稿では,重み行列を整列結合空間に分解・コーディネートするために特異値分解を利用する,単純かつ効果的な手法であるデコム・リノルム・マージ(DRM)を提案する。
実験の結果,DRMは完全微調整および低ランク適応設定において,最先端のマージ技術よりも優れていた。
論文 参考訳(メタデータ) (2025-05-29T05:37:53Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。