Fugu-MT 論文翻訳(概要): Transforming Hidden States into Binary Semantic Features

論文の概要: Transforming Hidden States into Binary Semantic Features

arxiv url: http://arxiv.org/abs/2409.19813v1
Date: Sun, 29 Sep 2024 22:23:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 17:29:56.127163
Title: Transforming Hidden States into Binary Semantic Features
Title（参考訳）: 隠れ状態から二項意味的特徴への変換
Authors: Tomáš Musil, David Mareček,
Abstract要約: 我々は再び意味の分布論を採用することを提案する。独立成分分析を用いて、その難易度を克服し、大きな言語モデルがそれらの隠れ状態における意味的特徴を表現することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models follow a lineage of many NLP applications that were directly inspired by distributional semantics, but do not seem to be closely related to it anymore. In this paper, we propose to employ the distributional theory of meaning once again. Using Independent Component Analysis to overcome some of its challenging aspects, we show that large language models represent semantic features in their hidden states.
Abstract（参考訳）: 大規模言語モデルは、分布意味論から直接的にインスパイアされた多くのNLPアプリケーションの系統に従っているが、もはやそれと密接な関係はないようである。本稿では,再び意味の分布論を採用することを提案する。独立成分分析を用いて、その難易度を克服し、大きな言語モデルがそれらの隠れ状態における意味的特徴を表現することを示す。

関連論文リスト

False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか? 相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文参考訳（メタデータ） (2025-09-23T07:47:54Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
Evaluating Large Language Models on Multiword Expressions in Multilingual and Code-Switched Contexts [2.519319150166215]
本研究では,現在最先端の言語モデルが,潜在的に慣用的なマルチワード表現のあいまいさをどのように処理するかを評価する。大きな言語モデルは、その強みにも拘わらず、ニュアンスド言語に苦戦している。
論文参考訳（メタデータ） (2025-04-10T16:39:28Z)
Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文参考訳（メタデータ） (2024-12-14T18:18:52Z)
Infusing Prompts with Syntax and Semantics [0.0]
本研究では,多種多様な構文情報や意味情報を大規模言語モデルに直接注入する効果を解析する。言語分析によって言語モデルが大幅に向上し、これまでの最高のシステムを超えている点が示される。
論文参考訳（メタデータ） (2024-12-08T23:49:38Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
How well do distributed representations convey contextual lexical semantics: a Thesis Proposal [3.3585951129432323]
本稿では,現代ニューラルネットワークによる語彙意味の符号化における分散表現の有効性について検討する。文脈に影響された意味の関連性と類似性に基づいて,曖昧さの4つの源を同定する。次に、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。
論文参考訳（メタデータ） (2024-06-02T14:08:51Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Learning Semantic Textual Similarity via Topic-informed Discrete Latent Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文参考訳（メタデータ） (2022-11-07T15:09:58Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文参考訳（メタデータ） (2021-09-02T11:34:29Z)
Multi-sense embeddings through a word sense disambiguation process [2.2344764434954256]
最も適した感覚。 (MSSA)は、その文脈の意味的効果を考慮して、それぞれの単語をその特定の感覚で曖昧にし、注釈する。我々は,単語類似性タスクの6つの異なるベンチマークでアプローチを検証し,そのアプローチが最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-01-21T16:22:34Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文参考訳（メタデータ） (2020-04-21T05:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。