論文の概要: The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2602.15382v1
- Date: Tue, 17 Feb 2026 06:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.998057
- Title: The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
- Title(参考訳): ビジョンワームホール:不均一なマルチエージェントシステムにおける潜在空間通信
- Authors: Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao,
- Abstract要約: Vision Wormholeは、VLM(Vision-Language Models)のビジュアルインターフェースを再利用して、モデルに依存しない、テキストのないコミュニケーションを可能にする新しいフレームワークである。
我々のフレームワークは、O(N2) から O(N) へのペアアライメントの複雑さを低減するために、ハブ・アンド・スポークトポロジーを採用している。
- 参考スコア(独自算出の注目度): 38.24090123024738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and information quantization loss. While latent state transfer offers a high-bandwidth alternative, existing approaches either assume homogeneous sender-receiver architectures or rely on pair-specific learned translators, limiting scalability and modularity across diverse model families with disjoint manifolds. In this work, we propose the Vision Wormhole, a novel framework that repurposes the visual interface of Vision-Language Models (VLMs) to enable model-agnostic, text-free communication. By introducing a Universal Visual Codec, we map heterogeneous reasoning traces into a shared continuous latent space and inject them directly into the receiver's visual pathway, effectively treating the vision encoder as a universal port for inter-agent telepathy. Our framework adopts a hub-and-spoke topology to reduce pairwise alignment complexity from O(N^2) to O(N) and leverages a label-free, teacher-student distillation objective to align the high-speed visual channel with the robust reasoning patterns of the text pathway. Extensive experiments across heterogeneous model families (e.g., Qwen-VL, Gemma) demonstrate that the Vision Wormhole reduces end-to-end wall-clock time in controlled comparisons while maintaining reasoning fidelity comparable to standard text-based MAS. Code is available at https://github.com/xz-liu/heterogeneous-latent-mas
- Abstract(参考訳): 大規模言語モデルを用いたマルチエージェントシステム(MAS)は、先進的な協調推論を解き放ちつつも、大きなランタイムオーバーヘッドと情報量子化損失をもたらす離散テキスト通信の非効率さに悩まされている。
潜在状態転送は高帯域幅の代替手段を提供するが、既存のアプローチでは、同質な送信者受信アーキテクチャを前提とするか、ペア固有の学習トランスレータに依存しており、不連結多様体を持つ様々なモデルファミリ間のスケーラビリティとモジュラリティを制限している。
本研究では,VLM(Vision-Language Models)の視覚インタフェースを再利用し,モデルに依存しない,テキストのないコミュニケーションを実現する新しいフレームワークであるVision Wormholeを提案する。
ユニバーサルビジュアルコーデックを導入することで、異種推論トレースを共有連続潜伏空間にマッピングし、それらを受信者の視覚経路に直接注入し、視覚エンコーダをエージェント間テレパシーのためのユニバーサルポートとして効果的に扱う。
筆者らのフレームワークは,O(N^2)からO(N)への配向の複雑さを軽減するために,ハブ・アンド・スポークなトポロジを採用し,ラベルのない教師・学生蒸留の目的を利用して,高速なビジュアルチャネルをテキスト経路の頑健な推論パターンと整合させる。
ヘテロジニアスモデルファミリ(例えば Qwen-VL, Gemma)の広範な実験により、Vision Wormhole は標準テキストベースMASに匹敵する推論忠実さを維持しながら、制御された比較においてエンドツーエンドのウォールクロック時間を短縮することを示した。
コードはhttps://github.com/xz-liu/heterogeneous-latent-masで入手できる。
関連論文リスト
- Kelix Technical Report [86.64551727600104]
我々は、完全離散自己回帰統一モデルであるKelixを紹介し、離散的および連続的な視覚表現間の理解ギャップを埋める。
最近の研究は、完全自己回帰型マルチモーダルモデリングを可能にするために、離散的な視覚的トークン化を探求している。
論文 参考訳(メタデータ) (2026-02-10T14:48:26Z) - MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP [21.89022894877594]
異種リモートセンシングと自然言語のセマンティクスを協調する新しいフレームワークMMLGNetを提案する。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-13T10:44:37Z) - MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。