論文の概要: Achieving Semantic Consistency Using BERT: Application of Pre-training Semantic Representations Model in Social Sciences Research
- arxiv url: http://arxiv.org/abs/2412.04505v1
- Date: Tue, 03 Dec 2024 15:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:55:29.178179
- Title: Achieving Semantic Consistency Using BERT: Application of Pre-training Semantic Representations Model in Social Sciences Research
- Title(参考訳): BERTを用いたセマンティック一貫性の獲得 : 社会科学研究における事前学習セマンティック表現モデルの適用
- Authors: Ruiyu Zhang, Lin Nie, Ce Zhao, Qingyang Chen,
- Abstract要約: 本研究では,社会科学研究に関連するテキスト分析タスクにおいて,単語の意味を安定的に維持する上でのWord2VecとBERTの性能を実証的に比較した。
その結果,BERTはWord2Vecよりも意味的安定性が優れ,コンテキスト埋め込みの安定性が向上していることがわかった。
- 参考スコア(独自算出の注目度): 0.9249657468385781
- License:
- Abstract: Achieving consistent word interpretations across different time spans is crucial in social sciences research and text analysis tasks, as stable semantic representations form the foundation for research and task correctness, enhancing understanding of socio-political and cultural analysis. Traditional models like Word2Vec have provided significant insights into long-term semantic changes but often struggle to capture stable meanings in short-term contexts, which may be attributed to fluctuations in embeddings caused by unbalanced training data. Recent advancements, particularly BERT (Bidirectional Encoder Representations from Transformers), its pre-trained nature and transformer encoder architecture offer contextual embeddings that improve semantic consistency, making it a promising tool for short-term analysis. This study empirically compares the performance of Word2Vec and BERT in maintaining stable word meanings over time in text analysis tasks relevant to social sciences research. Using articles from the People's Daily spanning 20 years (2004-2023), we evaluated the semantic stability of each model across different timeframes. The results indicate that BERT consistently outperforms Word2Vec in maintaining semantic stability, offering greater stability in contextual embeddings. However, the study also acknowledges BERT's limitations in capturing gradual semantic shifts over longer periods due to its inherent stability. The findings suggest that while BERT is advantageous for short-term semantic analysis in social sciences, researchers should consider complementary approaches for long-term studies to fully capture semantic drift. This research underscores the importance of selecting appropriate word embedding models based on the specific temporal context of social science analyses.
- Abstract(参考訳): 安定した意味表現が研究とタスクの正しさの基礎を形成し、社会・政治・文化分析の理解を深める。
Word2Vecのような伝統的なモデルは、長期の意味の変化について重要な洞察を提供してきたが、しばしば短期的な文脈で安定した意味を捉えるのに苦労している。
最近の進歩、特にBERT(Bidirectional Encoder Representations from Transformers)、その事前訓練された性質とトランスフォーマーエンコーダアーキテクチャは、セマンティック一貫性を改善するためのコンテキスト埋め込みを提供し、短期分析のための有望なツールである。
本研究では,社会科学研究に関連するテキスト分析タスクにおいて,単語の意味を安定的に維持する上でのWord2VecとBERTの性能を実証的に比較した。
我々は20年(2004-2023)にわたる『人民日報』の記事を用いて、異なる時間枠における各モデルのセマンティック安定性を評価した。
その結果,BERTはWord2Vecよりも意味的安定性が優れ,コンテキスト埋め込みの安定性が向上していることがわかった。
しかし、この研究はBERTが本質的に安定しているため、長期にわたる段階的な意味変化を捉える際の限界も認めている。
以上の結果から,BERTは社会科学の短期的意味分析に有利であるが,研究者は長期研究において,セマンティックドリフトを完全に捉えるための補完的アプローチを検討するべきである。
本研究は,社会科学分析の時間的文脈に基づいて,適切な単語埋め込みモデルを選択することの重要性を浮き彫りにする。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Incorporating Dynamic Semantics into Pre-Trained Language Model for
Aspect-based Sentiment Analysis [67.41078214475341]
ABSAの動的アスペクト指向セマンティクスを学ぶために,DR-BERT(Dynamic Re-weighting BERT)を提案する。
具体的には、まずStack-BERT層を主エンコーダとして、文の全体的な意味を理解する。
次に、軽量な動的再重み付けアダプタ(DRA)を導入して微調整する。
論文 参考訳(メタデータ) (2022-03-30T14:48:46Z) - HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis [3.2851864672627618]
本稿では,英語のバランスを保ったコーパスに基づいて,事前学習したBERTベースの言語モデルHistBERTを提案する。
単語類似性および意味変化解析における有望な結果を報告する。
論文 参考訳(メタデータ) (2022-02-08T02:53:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。