論文の概要: Set-Theoretic Compositionality of Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2502.20975v1
- Date: Fri, 28 Feb 2025 11:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:28.849087
- Title: Set-Theoretic Compositionality of Sentence Embeddings
- Title(参考訳): 文埋め込みの集合論的構成性
- Authors: Naman Bansal, Yash mahajan, Sanjeev Sinha, Santu Karmaker,
- Abstract要約: textitTextOverlap, textitTextDifference, textitTextUnion の3つのコア "set-like" 合成/操作に基づく6つの基準を提案する。
SBERT は,最新のLarge Language Model (LLM) ベースの文エンコーダでさえも,セットライクなコンポジション特性を一貫して示している。
文埋め込みのセットライクな構成性に対する将来のベンチマーク作業を容易にするために,92ドルのサンプルのデータセットを新たに導入する。
- 参考スコア(独自算出の注目度): 3.54986854192103
- License:
- Abstract: Sentence encoders play a pivotal role in various NLP tasks; hence, an accurate evaluation of their compositional properties is paramount. However, existing evaluation methods predominantly focus on goal task-specific performance. This leaves a significant gap in understanding how well sentence embeddings demonstrate fundamental compositional properties in a task-independent context. Leveraging classical set theory, we address this gap by proposing six criteria based on three core "set-like" compositions/operations: \textit{TextOverlap}, \textit{TextDifference}, and \textit{TextUnion}. We systematically evaluate $7$ classical and $9$ Large Language Model (LLM)-based sentence encoders to assess their alignment with these criteria. Our findings show that SBERT consistently demonstrates set-like compositional properties, surpassing even the latest LLMs. Additionally, we introduce a new dataset of ~$192$K samples designed to facilitate future benchmarking efforts on set-like compositionality of sentence embeddings.
- Abstract(参考訳): 文エンコーダは様々なNLPタスクにおいて重要な役割を担っているため、その構成特性の正確な評価が最重要である。
しかし、既存の評価手法は主に目標タスク固有のパフォーマンスに焦点を当てている。
このことは、タスク非依存の文脈において、文の埋め込みがいかに基本的な構成的性質を示すかを理解する上で、大きなギャップを残している。
古典的集合論を応用して、このギャップに対処するために、3つの中核的な「集合のような」構成/操作に基づく6つの基準を提案する: \textit{TextOverlap}, \textit{TextDifference}, \textit{TextUnion}。
我々は,古典的および9ドルのLarge Language Model (LLM) ベースの文エンコーダを体系的に評価し,それらの基準との整合性を評価する。
以上の結果から, SBERT は, 最新の LLM を上回り, 集合的な構成特性を常に示していることがわかった。
さらに,文章埋め込みの集合的構成性に対する将来のベンチマーク作業を容易にするために,192ドルのサンプルのデータセットを新たに導入する。
関連論文リスト
- Coarse Set Theory for AI Ethics and Decision-Making: A Mathematical Framework for Granular Evaluations [0.0]
粗い集合論(CST)は、粗い倫理(CE)を定式化する数学的枠組みを導入する
CEは人間の評価やAI分類システムでよく使われる粗粒度決定過程をモデル化する。
CSTは、完全に順序付けられた構造と粗いマッピングを使用して集合間の階層的関係を定義し、AIシステムが決定の粒度を動的に調整できるようにする。
この研究は、グレーディングシステム、自動レコメンデーション、リスクアセスメントにCSTを適用し、公正性を高め、バイアスを減らし、AIによる意思決定における透明性を向上させる可能性を実証する。
論文 参考訳(メタデータ) (2025-02-11T08:18:37Z) - AmalREC: A Dataset for Relation Extraction and Classification Leveraging Amalgamation of Large Language Models [0.7381551917607596]
この研究は、(i)関係から文を生成する方法、(ii)関係を比較・ランク付けする方法、(iii)個々の方法の強みを組み合わせて、文のさらにベットな品質を生成する方法、(iv)最終的なデータセットを評価する方法、といった主な疑問に焦点を当てた。
論文 参考訳(メタデータ) (2024-12-29T10:36:33Z) - Recurrent Alignment with Hard Attention for Hierarchical Text Rating [6.858867989434858]
大規模言語モデル(LLM)を利用した階層型テキスト評価のための新しいフレームワークを提案する。
我々のフレームワークは、RAHA(Recurrent Alignment with Hard Attention)を取り入れています。
実験の結果,RAHAは3つの階層的テキスト評価データセットにおいて,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-14T00:40:51Z) - UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity [50.91030850662369]
既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2023-12-06T11:50:14Z) - Compositional Generalization for Data-to-Text Generation [86.79706513098104]
本稿では,群に述語をクラスタ化することで構成一般化に対処する新しいモデルを提案する。
本モデルでは,1つの述語を1度に1つのクラスタに依存して文単位でテキストを生成する。
すべての評価指標でT5ベースラインをはるかに上回る。
論文 参考訳(メタデータ) (2023-12-05T13:23:15Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - On the Use of Context for Predicting Citation Worthiness of Sentences in
Scholarly Articles [10.28696219236292]
この問題を階層的BiLSTMモデルを用いて解いたシーケンスラベリングタスクとして定式化する。
我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。
本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。
論文 参考訳(メタデータ) (2021-04-18T21:47:30Z) - Reformulating Sentence Ordering as Conditional Text Generation [17.91448517871621]
文順序フレームワークであるReorder-BART(RE-BART)を紹介します。
タスクを条件付きテキスト-マーカー生成設定として再構成します。
私たちのフレームワークは、Perfect Match Ratio(PMR)とKendallのtau($tau$)メトリックの6つのデータセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-14T18:16:47Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。