論文の概要: Independent Components of Word Embeddings Represent Semantic Features
- arxiv url: http://arxiv.org/abs/2212.09580v1
- Date: Mon, 19 Dec 2022 16:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:47:11.335548
- Title: Independent Components of Word Embeddings Represent Semantic Features
- Title(参考訳): 意味的特徴を表す単語埋め込みの独立成分
- Authors: Tom\'a\v{s} Musil and David Mare\v{c}ek
- Abstract要約: 独立成分分析(Independent Component Analysis, ICA)は、もともと混合信号中の異なるソースを見つけるために開発されたアルゴリズムである。
ICAは単語の意味的特徴を見つけるのに利用でき、これらの特徴を組み合わせれば、その組み合わせを満たす単語を検索できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Independent Component Analysis (ICA) is an algorithm originally developed for
finding separate sources in a mixed signal, such as a recording of multiple
people in the same room speaking at the same time. It has also been used to
find linguistic features in distributional representations. In this paper, we
used ICA to analyze words embeddings. We have found that ICA can be used to
find semantic features of the words and these features can easily be combined
to search for words that satisfy the combination. We show that only some of the
independent components represent such features, but those that do are stable
with regard to random initialization of the algorithm.
- Abstract(参考訳): 独立成分分析(Independent Component Analysis, ICA)は、もともと同じ部屋の複数の人が同時に話す記録など、混合信号で別々のソースを見つけるために開発されたアルゴリズムである。
分布表現における言語的特徴を見つけるためにも用いられる。
本稿では,ICAを用いて単語の埋め込みを分析した。
ICAは単語の意味的特徴を見つけるのに利用でき、これらの特徴を組み合わせれば、その組み合わせを満たす単語を検索できることがわかった。
独立成分のいくつかだけがそのような特徴を表すが、アルゴリズムのランダムな初期化に関しては安定であることを示す。
関連論文リスト
- Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - Exploring Intra and Inter-language Consistency in Embeddings with ICA [17.87419386215488]
独立成分分析(ICA)は、独立鍵特徴を識別することによって、より明確な意味軸を生成する。
これまでの研究では、ICAが言語全体にわたって普遍的な意味軸を明らかにする可能性を示している。
セマンティック軸の整合性は、一つの言語内と複数の言語にまたがる2つの方法で検討した。
論文 参考訳(メタデータ) (2024-06-18T10:24:50Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - TextEssence: A Tool for Interactive Analysis of Semantic Shifts Between
Corpora [14.844685568451833]
TextEssenceは、埋め込みを用いたコーポラの比較分析を可能にするインタラクティブなシステムです。
TextEssenceには、軽量なWebベースのインターフェイスに、ビジュアル、隣り合わせ、および類似性ベースの組み込み分析モードが含まれています。
論文 参考訳(メタデータ) (2021-03-19T21:26:28Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文 参考訳(メタデータ) (2020-06-17T14:25:36Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。