論文の概要: What Makes Two Language Models Think Alike?
- arxiv url: http://arxiv.org/abs/2406.12620v2
- Date: Mon, 24 Jun 2024 06:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:54:21.212080
- Title: What Makes Two Language Models Think Alike?
- Title(参考訳): 2つの言語モデルが似ている理由
- Authors: Jeanne Salle, Louis Jalouzot, Nur Lan, Emmanuel Chemla, Yair Lakretz,
- Abstract要約: 本稿では,メタラーニング符号化モデル(MLEM)に基づく新しい手法を提案する。
MLEMは、類似性と相違の原因となる特定の言語的特徴を特定することによって、透過的な比較を提供する。
このアプローチは、音声や視覚などの他の領域や、人間の脳を含む他の神経系にも直接拡張できる。
- 参考スコア(独自算出の注目度): 6.244579327420724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do architectural differences significantly affect the way models represent and process language? We propose a new approach, based on metric-learning encoding models (MLEMs), as a first step to answer this question. The approach provides a feature-based comparison of how any two layers of any two models represent linguistic information. We apply the method to BERT, GPT-2 and Mamba. Unlike previous methods, MLEMs offer a transparent comparison, by identifying the specific linguistic features responsible for similarities and differences. More generally, the method uses formal, symbolic descriptions of a domain, and use these to compare neural representations. As such, the approach can straightforwardly be extended to other domains, such as speech and vision, and to other neural systems, including human brains.
- Abstract(参考訳): アーキテクチャの違いは、モデルの表現方法やプロセス言語に大きく影響しますか?
本稿では,メタラーニング符号化モデル(MLEM)に基づく新しい手法を提案する。
このアプローチは、どの2つのモデルの2つの層が言語情報をどのように表現するかを特徴ベースの比較を提供する。
本手法をBERT, GPT-2, Mambaに適用する。
従来の方法とは異なり、MLEMは類似性と相違の原因となる特定の言語的特徴を特定することによって、透過的な比較を提供する。
より一般的には、この手法はドメインの形式的で象徴的な記述を使用し、これらを用いて神経表現を比較する。
そのため、アプローチは音声や視覚などの他の領域や、人間の脳を含む他の神経系にも直接拡張できる。
関連論文リスト
- Metric-Learning Encoding Models Identify Processing Profiles of
Linguistic Features in BERT's Representations [5.893248479095486]
メトリックラーニングモデル(MLEM)は、ニューラルネットワークが処理対象の理論的特徴をどのように表現するかを理解するための新しいアプローチである。
MLEMは、他のドメイン(例えば視覚)や人間の脳などの他の神経系に拡張することができる。
論文 参考訳(メタデータ) (2024-02-18T14:57:53Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Interpretable Differencing of Machine Learning Models [20.99877540751412]
2つのMLモデルの出力の相似性関数の予測の1つとしてモデル差分問題の定式化を行う。
ジョイントサロゲートツリー(JST)は、この2つのモデルのための2つの連結された決定木サロゲートから構成される。
JSTは違いを直感的に表現し、モデル決定ロジックのコンテキストに変化を配置します。
論文 参考訳(メタデータ) (2023-06-10T16:15:55Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - A Brief Overview of Unsupervised Neural Speech Representation Learning [12.850357461259197]
本稿では,過去10年間の音声教育における教師なし表現学習の展開について概観する。
自己教師型手法と確率的潜在変数モデルという2つの主要なモデルカテゴリを同定する。
論文 参考訳(メタデータ) (2022-03-01T11:15:35Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。