Fugu-MT 論文翻訳(概要): On the Semantics of LM Latent Space: A Vocabulary-defined Approach

論文の概要: On the Semantics of LM Latent Space: A Vocabulary-defined Approach

arxiv url: http://arxiv.org/abs/2401.16184v1
Date: Mon, 29 Jan 2024 14:29:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 14:26:30.012664
Title: On the Semantics of LM Latent Space: A Vocabulary-defined Approach
Title（参考訳）: LM潜在空間のセマンティックス--語彙定義によるアプローチ
Authors: Jian Gu, Chunyang Chen, Aldeida Aleti
Abstract要約: 我々は、LM潜在空間内に固定参照フレームを確立する語彙定義セマンティクスと呼ばれる先駆的手法を導入する。本稿では,ロジットを計算し,微分可能性と局所等方性を強調し,データ表現を意味的に校正するニューラルクラスタリングモジュールを提案する。本研究は, LM力学に光を当て, LM性能と解釈性を向上させるための実用的なソリューションを提供するものである。
参考スコア（独自算出の注目度）: 29.55309950026882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of deep learning, understanding the latent space of language models (LMs) like transformers is crucial for refining their performance and interpretability. However, existing analyses often fall short in providing absolute and model-centric insights into LM semantics, and neglect essential aspects of LM adaption. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a fixed reference frame within the LM latent space, ensuring absolute semantic analysis grounded in LM vocabulary. Our approach transcends prior relative analyses, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasizing differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach surpasses state-of-the-art methods of retrieval-augmented generation and parameters-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics but also offer practical solutions for enhancing LM performance and interpretability.
Abstract（参考訳）: ディープラーニングの領域では、トランスフォーマーのような言語モデル(LM)の潜伏空間を理解することが、パフォーマンスと解釈可能性を改善する上で不可欠である。しかし、既存の分析は、LMセマンティクスに関する絶対的およびモデル中心の洞察を提供し、LM適応の本質的な側面を無視する点で不足することが多い。そこで本研究では,lm潜在空間内に固定参照フレームを確立し,lm語彙を基礎とした絶対的意味解析を実現する,語彙定義意味論という先駆的手法を提案する。我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前相対分析を超越する。さらに,ロジットを計算し,微分性と局所等方性を強調する手法を提案し,lm適応時のデータ表現を意味的に校正するニューラルネットワークモジュールを提案する。多様なテキスト理解データセットにまたがる広範な実験を通じて,本手法は検索強化生成とパラメータ効率向上のための最先端手法を超越し,その有効性と適用性を示す。本研究は, LM力学に光を当てるだけでなく, LM性能と解釈可能性を向上させるための実用的ソリューションも提供する。

関連論文リスト

When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars [34.80529788630565]
潜在意味論は、言語モデルのパフォーマンスを決定する重要な特性の1つです。この機能を呼び出すための便利なアプローチの1つは、事前トレーニングデータのテキストの開始時にメタデータをプリペンドすることである。メタデータを用いたトレーニングは、与えられたコンテキストが遅延セマンティクスを推測するのに十分な時間である場合に、モデルの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2025-04-24T13:56:43Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection [56.916656013563355]
In-context Learning (ICL)により、大規模言語モデルでは、デモをほとんど使わずにタスクを実行することができる。 PICLeは、ノイズの多い擬似アノテーション付き実演によるインコンテキスト学習のためのフレームワークである。バイオメディカルな5つのNEDデータセット上でPICLeを評価し,PICLeが低リソース環境でICLより優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T16:09:35Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
DenoSent: A Denoising Objective for Self-Supervised Sentence Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文参考訳（メタデータ） (2024-01-24T17:48:45Z)
Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。 MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文参考訳（メタデータ） (2024-01-09T10:15:59Z)
In-Context Probing: Toward Building Robust Classifiers via Probing Large Language Models [5.5089506884366735]
本稿では, In-Context Probing (ICP) という代替手法を提案する。インコンテキスト学習と同様に、入力の表現を命令で文脈化するが、出力予測を復号する代わりに、ラベルを予測するために文脈化表現を探索する。我々はICPがファインタニングよりも優れていることを示し、より小さなモデルの上に分類器を構築するのに特に有用であることを示した。
論文参考訳（メタデータ） (2023-05-23T15:43:04Z)
Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文参考訳（メタデータ） (2023-03-21T07:00:35Z)
Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文参考訳（メタデータ） (2023-02-11T14:02:08Z)
Improving Few-Shot Performance of Language Models via Nearest Neighbor Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文参考訳（メタデータ） (2022-12-05T12:49:41Z)
On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文参考訳（メタデータ） (2021-12-14T18:49:26Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。