論文の概要: Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning
- arxiv url: http://arxiv.org/abs/2602.23588v1
- Date: Fri, 27 Feb 2026 01:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.196065
- Title: Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning
- Title(参考訳): 効率的な画像キャプションのための凍結言語と画像モデルの超次元的クロスモーダルアライメント
- Authors: Abhishek Dalvi, Vasant Honavar,
- Abstract要約: HDFLIMは、事前訓練されたビジョンと言語モデルを完全に凍結したまま、クロスモーダルマッピングを確立するフレームワークである。
本稿では,HDFLIMの性能をエンドツーエンドの視覚言語学習手法に匹敵することを示す。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large unimodal foundation models for vision and language encode rich semantic structures, yet aligning them typically requires computationally intensive multimodal fine-tuning. Such approaches depend on large-scale parameter updates, are resource intensive, and can perturb pretrained representations. Emerging evidence suggests, however, that independently trained foundation models may already exhibit latent semantic compatibility, reflecting shared structures in the data they model. This raises a fundamental question: can cross-modal alignment be achieved without modifying the models themselves? Here we introduce HDFLIM (HyperDimensional computing with Frozen Language and Image Models), a framework that establishes cross-modal mappings while keeping pretrained vision and language models fully frozen. HDFLIM projects unimodal embeddings into a shared hyperdimensional space and leverages lightweight symbolic operations -- binding, bundling, and similarity-based retrieval to construct associative cross-modal representations in a single pass over the data. Caption generation emerges from high-dimensional memory retrieval rather than iterative gradient-based optimization. We show that HDFLIM achieves performance comparable to end-to-end vision-language training methods and produces captions that are more semantically grounded than zero-shot baselines. By decoupling alignment from parameter tuning, our results suggest that semantic mapping across foundation models can be realized through symbolic operations on hyperdimensional encodings of the respective embeddings. More broadly, this work points toward an alternative paradigm for foundation model alignment in which frozen models are integrated through structured representational mappings rather than through large-scale retraining. The codebase for our implementation can be found at https://github.com/Abhishek-Dalvi410/HDFLIM.
- Abstract(参考訳): 視覚と言語のための大きな単調な基礎モデルは、リッチな意味構造を符号化するが、それらを整列させるには一般に計算集約的なマルチモーダル微調整が必要である。
このようなアプローチは大規模なパラメータ更新に依存しており、リソース集約であり、事前訓練された表現を摂動することができる。
しかし、新たな証拠は、独立に訓練された基礎モデルは、すでに潜在的なセマンティックな互換性を示しており、それらがモデル化したデータの共有構造を反映していることを示唆している。
モデル自体を変更することなく、クロスモーダルアライメントが達成できるのか?
ここでは,事前学習した視覚と言語モデルを完全に凍結したまま,クロスモーダルマッピングを確立するHDFLIM(Hyper dimension computing with Frozen Language and Image Models)を紹介する。
HDFLIMは、共有超次元空間へのユニモーダル埋め込みを投影し、バインディング、バンドル、類似性に基づく検索という軽量なシンボル操作を活用して、データの単一パスで連想的なクロスモーダル表現を構築する。
キャプション生成は、反復的な勾配に基づく最適化ではなく、高次元メモリ検索から生じる。
本稿では、HDFLIMが、エンドツーエンドの視覚言語学習手法に匹敵する性能を達成し、ゼロショットベースラインよりも意味論的に基礎付けられたキャプションを生成することを示す。
パラメータチューニングからアライメントを分離することにより,各埋め込みの超次元符号化におけるシンボル操作により,基礎モデル間のセマンティックマッピングを実現することができることを示す。
より広範に、この研究は、大規模なリトレーニングではなく、構造化された表現型マッピングを通して凍結モデルを統合する基礎モデルアライメントの代替パラダイムに向けられている。
私たちの実装のコードベースはhttps://github.com/Abhishek-Dalvi410/HDFLIMで確認できます。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - SITS-DECO: A Generative Decoder Is All You Need For Multitask Satellite Image Time Series Modelling [0.0]
本稿では,EOデータに統一シーケンスフレーミングを適用する概念実証モデルであるSITS-DECOを紹介する。
モデルが単一統一アーキテクチャ内で複数の教師付きタスクや自己監督型タスクを実行できることを示す。
単純さと空間的文脈の欠如にもかかわらず、SITS-DECOは作物型分類におけるより大きなEO基盤モデルよりも優れている。
論文 参考訳(メタデータ) (2025-10-21T14:42:55Z) - Global and Local Entailment Learning for Natural World Imagery [7.874291189886743]
Radial Cross-Modal Embeddings (RCME) は、推移性強化エンテーメントの明示的なモデリングを可能にするフレームワークである。
生活樹の階層を表現できる階層的視覚言語基盤モデルを構築した。
論文 参考訳(メタデータ) (2025-06-26T17:05:06Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Future Link Prediction Without Memory or Aggregation [25.066464612400768]
時間グラフの将来のリンク予測は、実世界の動的システムに広く適用可能な基本課題である。
既存のメソッドは通常、複雑なメモリとアグリゲーションモジュールに依存しますが、目に見えないエッジを扱うのに苦労しています。
本稿では,メモリやアグリゲーションモジュールを捨てるシンプルなアーキテクチャであるCRAFT(Cross-Attention based Future Link Predictor on Temporal Graphs)を提案する。
論文 参考訳(メタデータ) (2025-05-26T01:53:27Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。