論文の概要: FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings
- arxiv url: http://arxiv.org/abs/2604.18109v1
- Date: Mon, 20 Apr 2026 11:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.833652
- Title: FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings
- Title(参考訳): FLiP:マルチモーダル多言語文埋め込みの理解と解釈に向けて
- Authors: Santosh Kesiraju, Bolaji Yusuf, Šimon Sedláček, Oldřich Plchot, Petr Schwarz,
- Abstract要約: 本稿では、事前訓練された文埋め込み空間を理解するための因子化線形射影(FLiP)モデルを提案する。
我々は、FLiPモデルを用いて、多言語(LaBSE)、多モーダル(SONAR)、およびAPIベース(Gemini)文埋め込み空間から語彙コンテンツを復元する。
その結果、FLiPは、埋め込みから75%以上の語彙コンテンツをリコールすることができ、既存の非リファクタリングベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 3.4481772445386096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents factorized linear projection (FLiP) models for understanding pretrained sentence embedding spaces. We train FLiP models to recover the lexical content from multilingual (LaBSE), multimodal (SONAR) and API-based (Gemini) sentence embedding spaces in several high- and mid-resource languages. We show that FLiP can recall more than 75% of lexical content from the embeddings, significantly outperforming existing non-factorized baselines. Using this as a diagnostic tool, we uncover the modality and language biases across the selected sentence encoders and provide practitioners with intrinsic insights about the encoders without relying on conventional downstream evaluation tasks. Our implementation is public https://github.com/BUTSpeechFIT/FLiP.
- Abstract(参考訳): 本稿では、事前訓練された文埋め込み空間を理解するための因子化線形射影(FLiP)モデルを提案する。
我々はFLiPモデルを用いて複数言語(LaBSE)、マルチモーダル(SONAR)、APIベース(Gemini)の文埋め込み空間から複数の高次・中高次言語で語彙コンテンツを復元する。
その結果、FLiPは、埋め込みから75%以上の語彙コンテンツをリコールすることができ、既存の非リファクタリングベースラインを著しく上回っていることがわかった。
これを診断ツールとして用いて、選択した文エンコーダ間のモダリティと言語バイアスを明らかにし、従来の下流評価タスクに頼ることなく、エンコーダに関する本質的な洞察を提供する。
私たちの実装はhttps://github.com/BUTSpeechFIT/FLiPです。
関連論文リスト
- Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models [67.09110757873142]
本研究では,LLMが自然言語から分布的知識を推測する能力を評価するための読解的ベンチマークであるText2DistBenchを紹介する。
映画と音楽のエンティティに関する実際のYouTubeコメントから構築されたこのベンチマークは、エンティティメタデータと関連するコメントを含むモデルを提供する。
信頼性と長期的な評価をサポートするため、Text2DistBenchの構築パイプラインは完全に自動化され、継続的に更新され、新たに登場したエンティティが組み込まれる。
論文 参考訳(メタデータ) (2026-03-13T19:26:08Z) - What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。