論文の概要: Improving Relative Representations with Learned Anchors and Whitened Inner Products
- arxiv url: http://arxiv.org/abs/2605.30596v1
- Date: Thu, 28 May 2026 21:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.250456
- Title: Improving Relative Representations with Learned Anchors and Whitened Inner Products
- Title(参考訳): 学習アンカーと白内製品による相対表現の改善
- Authors: Oscar Thorsted Svendsen, Nikolaj Holst Jakobsen, Fabian Mager, Hiba Nassar,
- Abstract要約: 独立に訓練されたニューラルモデルは一般に非互換な潜在表現に収束する。
相対表現(RR)は、絶対座標を共通アンカー点と類似性によって定義される共有空間にマッピングすることでこの問題に対処する。
従来の実装はランダムにサンプリングされたアンカーとコサインの類似性に依存している。
本稿では,2つの改良点に基づくクロスモデル通信のためのロバストなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independently trained neural models typically converge to incompatible latent representations, creating a fundamental barrier to highly modular AI systems. While Relative Representations (RR) address this by mapping absolute coordinates to a shared space defined by similarities to common anchor points, traditional implementations rely on randomly sampled anchors and cosine similarity, which frequently fail to capture the anisotropic geometries of modern architectures like Transformers. In this work, we propose a robust framework for cross-model communication based on two improvements. We learn anchors as robust semantic prototypes and utilize a geometry-aware similarity metric which preserves discriminative magnitude information and is invariant to affine shifts. Our approach demonstrates significant gains in performance and consistency across vision and language tasks. Notably, it enables nearly lossless information transfer and stable zero-shot communication even between highly heterogeneous architectures, such as small language models of varying scales.
- Abstract(参考訳): 独立に訓練されたニューラルネットワークは、一般的に非互換な潜在表現に収束し、高度にモジュール化されたAIシステムの基本障壁となる。
Relative Representations (RR) は、絶対座標を共通アンカー点と類似性によって定義される共有空間にマッピングすることでこの問題に対処するが、従来の実装はランダムにサンプリングされたアンカーとコサインの類似性に依存しており、トランスフォーマーのような近代建築の異方的幾何学を捉えることはしばしば失敗する。
本研究では,2つの改良点に基づくクロスモデル通信のためのロバストなフレームワークを提案する。
我々は、アンカーをロバストなセマンティックなプロトタイプとして学び、識別等級情報を保存し、アフィンシフトに不変な幾何学的類似度指標を利用する。
われわれのアプローチは、視覚と言語タスク間でのパフォーマンスと一貫性が著しく向上したことを示している。
特に、様々なスケールの小さな言語モデルのような非常に異質なアーキテクチャの間でも、ほとんどロスレスな情報転送と安定したゼロショット通信を可能にします。
関連論文リスト
- Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers [93.3976834364707]
本稿では,特徴写像のリレーショナル幾何における整合性を実現する構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から全体的空間配置と構造的相関を内包するように促すことにより、sREPAはより高速でより安定した収束を達成する。
論文 参考訳(メタデータ) (2026-05-16T12:01:04Z) - SEMASIA: A Large-Scale Dataset of Semantically Structured Latent Representations [12.185380843937196]
約1,700個の事前学習された視覚モデルから抽出した潜在表現の大規模コレクションであるSEMASIAを紹介する。
個々の潜在空間の概念的構造を解析し、一貫したプロトタイプのようなクラスタリングを示す。
プレトレーニングデータの複雑性,特殊化,伝達学習,拡張,モデルスケールが,埋め込みの幾何学的および探索的特性とどのように関係しているかを,大規模回帰分析により解析する。
論文 参考訳(メタデータ) (2026-05-10T11:42:36Z) - $\boldsymbolλ$-Orthogonality Regularization for Compatible Representation Learning [48.264642951728085]
検索システムは、ますます強力なモデルによって学習される表現に依存している。
学習表現における学習コストと不整合のため、表現間のコミュニケーションを促進することには大きな関心がある。
論文 参考訳(メタデータ) (2025-09-20T12:35:07Z) - Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。
この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。
そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。
次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文 参考訳(メタデータ) (2025-06-10T13:16:26Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Relative representations enable zero-shot latent space communication [19.144630518400604]
ニューラルネットワークは、高次元空間に横たわるデータ多様体の幾何学的構造を潜在表現に埋め込む。
ニューラルネットワークがこれらの相対表現をどのように活用して、実際に潜時等尺不変性を保証するかを示す。
論文 参考訳(メタデータ) (2022-09-30T12:37:03Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。