論文の概要: The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities
- arxiv url: http://arxiv.org/abs/2411.04986v1
- Date: Thu, 07 Nov 2024 18:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:58.440212
- Title: The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities
- Title(参考訳): セマンティックハブ仮説:言語モデルが言語とモダリティ間のセマンティック表現を共有する
- Authors: Zhaofeng Wu, Xinyan Velocity Yu, Dani Yogatama, Jiasen Lu, Yoon Kim,
- Abstract要約: 異なる言語における意味論的に等価な入力に対するモデル表現は中間層で類似していることを示す。
この空間は、ロジットレンズを介してモデルの主要な事前学習言語を使って解釈することができる。
1つのデータ型における共有表現空間の介入は、他のデータ型におけるモデル出力にも予測可能に影響を与える。
- 参考スコア(独自算出の注目度): 43.612937655996355
- License:
- Abstract: Modern language models can process inputs across diverse languages and modalities. We hypothesize that models acquire this capability through learning a shared representation space across heterogeneous data types (e.g., different languages and modalities), which places semantically similar inputs near one another, even if they are from different modalities/languages. We term this the semantic hub hypothesis, following the hub-and-spoke model from neuroscience (Patterson et al., 2007) which posits that semantic knowledge in the human brain is organized through a transmodal semantic "hub" which integrates information from various modality-specific "spokes" regions. We first show that model representations for semantically equivalent inputs in different languages are similar in the intermediate layers, and that this space can be interpreted using the model's dominant pretraining language via the logit lens. This tendency extends to other data types, including arithmetic expressions, code, and visual/audio inputs. Interventions in the shared representation space in one data type also predictably affect model outputs in other data types, suggesting that this shared representations space is not simply a vestigial byproduct of large-scale training on broad data, but something that is actively utilized by the model during input processing.
- Abstract(参考訳): 現代の言語モデルは様々な言語やモダリティで入力を処理することができる。
モデルは異種データ型(例えば、異なる言語やモダリティ)をまたいだ共有表現空間を学習し、異なるモダリティ/言語であっても、互いにセマンティックに類似した入力を互いに配置する、という仮説を立てる。
これを意味ハブ仮説と呼び、神経科学のハブ・アンド・スポークモデル(Patterson et al , 2007)に従って、人間の脳における意味的知識は、様々なモダリティ固有の「スポーク」領域の情報を統合する「ハブ」を通じて組織化されていると仮定する。
まず、異なる言語における意味論的に等価な入力に対するモデル表現が中間層で類似していることを示し、この空間はロジットレンズを介してモデルの支配的な事前学習言語を用いて解釈できることを示した。
この傾向は算術式、コード、視覚/オーディオ入力など他のデータ型にも及んでいる。
1つのデータ型における共有表現空間の介入は、他のデータ型におけるモデル出力にも予測可能であり、この共有表現空間は、単に広範データに対する大規模トレーニングの楽観的な副産物であるだけでなく、入力処理中にモデルによって積極的に活用されるものであることを示唆している。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z) - Does Typological Blinding Impede Cross-Lingual Sharing? [31.20201199491578]
入力データから、言語間設定で訓練されたモデルが、タイプ的手がかりを拾い上げることを示す。
言語間の共有とパフォーマンスへの影響について検討する。
論文 参考訳(メタデータ) (2021-01-28T09:32:08Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。