論文の概要: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning
- arxiv url: http://arxiv.org/abs/2506.08354v1
- Date: Tue, 10 Jun 2025 02:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.154468
- Title: Text Embeddings Should Capture Implicit Semantics, Not Just Surface Meaning
- Title(参考訳): テキストの埋め込みは意味不明のセマンティクスをキャプチャするべきで、単に表面的な意味ではない
- Authors: Yiqun Sun, Qiang Huang, Anthony K. H. Tung, Jun Yu,
- Abstract要約: テキスト埋め込み研究コミュニティは、表面的な意味を超えて、暗黙のセマンティクスを中心的なモデリング目標として受け入れるべきである、と我々は主張する。
現在の埋め込みモデルは、一般的にそのような深度に欠けるデータに基づいて訓練され、表面的な意味の獲得に報いるベンチマークで評価される。
我々のパイロット研究は、最先端のモデルでさえ、暗黙のセマンティックスタスクにおける単純化されたベースラインよりも、わずかに優れたパフォーマンスしか発揮していないことを示す、このギャップを強調している。
- 参考スコア(独自算出の注目度): 17.00358234728804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that the text embedding research community should move beyond surface meaning and embrace implicit semantics as a central modeling goal. Text embedding models have become foundational in modern NLP, powering a wide range of applications and drawing increasing research attention. Yet, much of this progress remains narrowly focused on surface-level semantics. In contrast, linguistic theory emphasizes that meaning is often implicit, shaped by pragmatics, speaker intent, and sociocultural context. Current embedding models are typically trained on data that lacks such depth and evaluated on benchmarks that reward the capture of surface meaning. As a result, they struggle with tasks requiring interpretive reasoning, speaker stance, or social meaning. Our pilot study highlights this gap, showing that even state-of-the-art models perform only marginally better than simplistic baselines on implicit semantics tasks. To address this, we call for a paradigm shift: embedding research should prioritize more diverse and linguistically grounded training data, design benchmarks that evaluate deeper semantic understanding, and explicitly frame implicit meaning as a core modeling objective, better aligning embeddings with real-world language complexity.
- Abstract(参考訳): このポジションペーパーでは、テキスト埋め込み研究コミュニティは、表面的な意味を超えて、暗黙的な意味論を中心的なモデリング目標として受け入れるべきである、と論じている。
テキスト埋め込みモデルは現代のNLPにおいて基礎となり、幅広い応用の動力となり、研究の注目を集めている。
しかし、この進歩の多くは、表面レベルの意味論に焦点を絞ったままである。
対照的に、言語理論は、意味はしばしば暗黙的であり、プラグマティクス、話者意図、社会文化的文脈によって形作られることを強調している。
現在の埋め込みモデルは、一般的にそのような深度に欠けるデータに基づいて訓練され、表面的な意味の獲得に報いるベンチマークで評価される。
結果として、彼らは解釈的推論、話者のスタンス、社会的意味を必要とするタスクに苦しむ。
我々のパイロット研究は、最先端のモデルでさえ、暗黙のセマンティックスタスクにおける単純化されたベースラインよりも、わずかに優れたパフォーマンスしか発揮していないことを示す、このギャップを強調している。
埋め込み研究は、より多様で言語的に根ざしたトレーニングデータを優先し、より深い意味理解を評価する設計ベンチマークを設計し、暗黙的な意味をコアモデリングの目的として明示的に枠付けし、埋め込みを現実の言語の複雑さとよりよく整合させるべきである。
関連論文リスト
- Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models [28.746370086515977]
視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。
本稿では,タスクのパフォーマンスとフレーズのグラウンド化を共同で研究する枠組みを提案する。
地中表現アノテーションのブルートフォーストレーニングを通じてこの問題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-09-06T03:54:57Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Disentangling Learnable and Memorizable Data via Contrastive Learning
for Semantic Communications [81.10703519117465]
セマンティック・レディにするために、ソースデータをアンタングルする新しい機械推論フレームワークが提案されている。
特に、データ上でインスタンスとクラスタの識別を行う新しいコントラスト学習フレームワークが提案されている。
信頼度の高い深いセマンティッククラスタは、学習可能でセマンティックリッチなデータだと考えられている。
シミュレーションの結果は, セマンティック・インパクトとミニマリズムの観点から, コントラスト学習アプローチの優位性を示した。
論文 参考訳(メタデータ) (2022-12-18T12:00:12Z) - Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets [18.754562380068815]
BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。
本研究は,主要な文脈的語彙意味タスクにおいて,文脈-単語間相互作用を検証した最初の定量的分析(探索ベースラインを用いた)を提案する。
論文 参考訳(メタデータ) (2021-12-13T15:37:05Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。