Fugu-MT 論文翻訳(概要): Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test

論文の概要: Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test

arxiv url: http://arxiv.org/abs/2212.09580v2
Date: Wed, 4 Sep 2024 09:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 07:20:22.452846
Title: Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test
Title（参考訳）: 自動単語イントルーダテストによる単語埋め込みの独立成分の解釈可能性の検討
Authors: Tomáš Musil, David Mareček,
Abstract要約: 独立成分分析(Independent Component Analysis, ICA)は、もともと混合信号中の異なるソースを見つけるために開発されたアルゴリズムである。 ICAは単語の意味的特徴を見つけるのに利用でき、これらの特徴を組み合わせれば、その組み合わせを満たす単語を検索することができる。コンポーネントの解釈可能性の定量化には、人間と大規模言語モデルの両方で実行される「侵入者テスト」という単語を用いる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Independent Component Analysis (ICA) is an algorithm originally developed for finding separate sources in a mixed signal, such as a recording of multiple people in the same room speaking at the same time. Unlike Principal Component Analysis (PCA), ICA permits the representation of a word as an unstructured set of features, without any particular feature being deemed more significant than the others. In this paper, we used ICA to analyze word embeddings. We have found that ICA can be used to find semantic features of the words, and these features can easily be combined to search for words that satisfy the combination. We show that most of the independent components represent such features. To quantify the interpretability of the components, we use the word intruder test, performed both by humans and by large language models. We propose to use the automated version of the word intruder test as a fast and inexpensive way of quantifying vector interpretability without the need for human effort.
Abstract（参考訳）: 独立成分分析(Independent Component Analysis, ICA)は、もともと同じ部屋にいる複数の人の録音を同時に行うような、混合信号で別々のソースを見つけるために開発されたアルゴリズムである。主成分分析(PCA)とは異なり、ICAは単語を非構造的な特徴の集合として表現することを許可する。本稿では,ICAを用いて単語の埋め込みを分析した。 ICAは単語の意味的特徴を見つけるのに利用でき、これらの特徴を組み合わせれば、その組み合わせを満たす単語を検索することができる。独立したコンポーネントのほとんどは、このような特徴を表しています。コンポーネントの解釈可能性の定量化には、人間と大規模言語モデルの両方で実行される「侵入者テスト」という単語を用いる。本稿では,人的努力を必要とせず,高速かつ安価なベクトル解釈可能性の定量化手法として,単語侵入テストの自動バージョンを提案する。

関連論文リスト

Mechanistic Decomposition of Sentence Representations [3.9146761527401432]
文の埋め込みは現代のNLPとAIシステムの中心であるが、内部構造についてはほとんど知られていない。文の埋め込みを解釈可能なコンポーネントに機械的に分解する新しい手法を提案する。我々は,これらの特徴を文表現に圧縮する方法を解析し,文埋め込みに存在する潜在的特徴を評価する。
論文参考訳（メタデータ） (2025-06-04T18:42:57Z)
Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文参考訳（メタデータ） (2024-06-20T18:58:11Z)
Exploring Intra and Inter-language Consistency in Embeddings with ICA [17.87419386215488]
独立成分分析(ICA)は、独立鍵特徴を識別することによって、より明確な意味軸を生成する。これまでの研究では、ICAが言語全体にわたって普遍的な意味軸を明らかにする可能性を示している。セマンティック軸の整合性は、一つの言語内と複数の言語にまたがる2つの方法で検討した。
論文参考訳（メタデータ） (2024-06-18T10:24:50Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-29T02:53:59Z)
TextEssence: A Tool for Interactive Analysis of Semantic Shifts Between Corpora [14.844685568451833]
TextEssenceは、埋め込みを用いたコーポラの比較分析を可能にするインタラクティブなシステムです。 TextEssenceには、軽量なWebベースのインターフェイスに、ビジュアル、隣り合わせ、および類似性ベースの組み込み分析モードが含まれています。
論文参考訳（メタデータ） (2021-03-19T21:26:28Z)
Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文参考訳（メタデータ） (2020-10-06T15:21:08Z)
On the Learnability of Concepts: With Applications to Comparing Word Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文参考訳（メタデータ） (2020-06-17T14:25:36Z)
Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文参考訳（メタデータ） (2020-04-09T14:37:12Z)
Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。 AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文参考訳（メタデータ） (2020-04-03T16:11:57Z)
A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文参考訳（メタデータ） (2020-01-28T05:03:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。