論文の概要: Unsupervised Sentence Textual Similarity with Compositional Phrase
Semantics
- arxiv url: http://arxiv.org/abs/2210.02284v1
- Date: Wed, 5 Oct 2022 14:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:52:05.959552
- Title: Unsupervised Sentence Textual Similarity with Compositional Phrase
Semantics
- Title(参考訳): 合成句意味論を用いた教師なし文テキストの類似性
- Authors: Zihao Wang, Jiaheng Dou, Yong Zhang
- Abstract要約: テキスト類似度の測定(STS)は、多くのダウンストリームNLPアプリケーションに適用可能な古典的なタスクである。
本稿では、様々な領域で動作するが、最小限のデータと計算資源しか必要としない教師なしSTSに焦点を当てる。
- 参考スコア(独自算出の注目度): 8.729329792251578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring Sentence Textual Similarity (STS) is a classic task that can be
applied to many downstream NLP applications such as text generation and
retrieval. In this paper, we focus on unsupervised STS that works on various
domains but only requires minimal data and computational resources.
Theoretically, we propose a light-weighted Expectation-Correction (EC)
formulation for STS computation. EC formulation unifies unsupervised STS
approaches including the cosine similarity of Additively Composed (AC) sentence
embeddings, Optimal Transport (OT), and Tree Kernels (TK). Moreover, we propose
the Recursive Optimal Transport Similarity (ROTS) algorithm to capture the
compositional phrase semantics by composing multiple recursive EC formulations.
ROTS finishes in linear time and is faster than its predecessors. ROTS is
empirically more effective and scalable than previous approaches. Extensive
experiments on 29 STS tasks under various settings show the clear advantage of
ROTS over existing approaches. Detailed ablation studies demonstrate the
effectiveness of our approaches.
- Abstract(参考訳): STS(Sentence Textual similarity)は、テキスト生成や検索など、多くのダウンストリームNLPアプリケーションに適用可能な古典的なタスクである。
本稿では、様々な領域で動作するが、最小限のデータと計算資源しか必要としない教師なしSTSに焦点を当てる。
理論的には、STS計算のための軽量期待補正(EC)の定式化を提案する。
ECの定式化は、追加合成(AC)文の埋め込み、最適輸送(OT)、ツリーカーネル(TK)のコサイン類似性を含む教師なしSTSアプローチを統一する。
さらに、複数の再帰的EC定式化を構成することで、構成句の意味を捉えるための再帰的最適輸送類似性(ROTS)アルゴリズムを提案する。
ROTSは線形時間で終了し、前機種よりも高速である。
ROTSは従来のアプローチよりも経験的に効率的でスケーラブルです。
29のSTSタスクに対する大規模な実験は、既存のアプローチよりもROTSの明確な利点を示している。
詳細なアブレーション研究は我々のアプローチの有効性を示している。
関連論文リスト
- A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - Predicting Text Preference Via Structured Comparative Reasoning [110.49560164568791]
我々は、構造化中間比較を生成することによって、テキストの嗜好を予測するプロンプト方式であるSCを導入する。
我々は、テキスト間の差異を明確に区別するためのペアワイズ整合コンパレータと一貫した比較を選択する。
要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。
論文 参考訳(メタデータ) (2023-11-14T18:51:38Z) - AnglE-optimized Text Embeddings [4.545354973721937]
本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。
AnglE の中核となる考え方は、複素空間に角度最適化を導入することである。
短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-09-22T13:52:42Z) - Toward Interpretable Semantic Textual Similarity via Optimal
Transport-based Contrastive Sentence Learning [29.462788855992617]
文間距離を輸送問題に基づく文脈化トークン距離の重み付け和として記述する。
次に、RCMDと呼ばれる最適輸送に基づく距離測定を行い、意味的に整合したトークンペアを特定し、活用する。
最後に,文ペアのRCMDを最適化するコントラスト学習フレームワークであるCLRCMDを提案する。
論文 参考訳(メタデータ) (2022-02-26T17:28:02Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Structural-Aware Sentence Similarity with Recursive Optimal Transport [11.052550499042646]
本研究では,単語ベクトルの重み付き平均と最適移動のコサイン類似性から有意義な意味的洞察を得た文に対する再帰的最適類似性(ROTS)を開発する。
20文のテキスト類似性(STS)データセットに対する実験は、弱い教師付きアプローチに対するROTSの明確な優位性を示している。
論文 参考訳(メタデータ) (2020-01-28T09:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。