論文の概要: Text Encoders Lack Knowledge: Leveraging Generative LLMs for
Domain-Specific Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2309.06541v1
- Date: Tue, 12 Sep 2023 19:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:32:24.247544
- Title: Text Encoders Lack Knowledge: Leveraging Generative LLMs for
Domain-Specific Semantic Textual Similarity
- Title(参考訳): テキストエンコーダの知識不足:ドメイン特有な意味的テクスチャ類似性のための生成LDMの活用
- Authors: Joseph Gatto, Omar Sharif, Parker Seegmiller, Philip Bohlman, Sarah
Masud Preum
- Abstract要約: セマンティックテキスト類似性(STS)は,複数のベンチマークにおいて高い性能を維持しつつ,テキスト生成問題としてキャスト可能であることを示す。
2つのテキスト間のセマンティックな類似性を特徴付ける際に、既存のエンコーダベースのSTSモデルよりも優れた生成LLMを示す。
以上の結果から,複雑なドメイン固有のSTSタスクにおいて,STS固有のプロンプト戦略を持つ生成言語モデルが最先端のパフォーマンスを達成することが示唆された。
- 参考スコア(独自算出の注目度): 2.861144046639872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Amidst the sharp rise in the evaluation of large language models (LLMs) on
various tasks, we find that semantic textual similarity (STS) has been
under-explored. In this study, we show that STS can be cast as a text
generation problem while maintaining strong performance on multiple STS
benchmarks. Additionally, we show generative LLMs significantly outperform
existing encoder-based STS models when characterizing the semantic similarity
between two texts with complex semantic relationships dependent on world
knowledge. We validate this claim by evaluating both generative LLMs and
existing encoder-based STS models on three newly collected STS challenge sets
which require world knowledge in the domains of Health, Politics, and Sports.
All newly collected data is sourced from social media content posted after May
2023 to ensure the performance of closed-source models like ChatGPT cannot be
credited to memorization. Our results show that, on average, generative LLMs
outperform the best encoder-only baselines by an average of 22.3% on STS tasks
requiring world knowledge. Our results suggest generative language models with
STS-specific prompting strategies achieve state-of-the-art performance in
complex, domain-specific STS tasks.
- Abstract(参考訳): 様々なタスクにおける大規模言語モデル (LLM) の評価の急激な増加の中で, 意味的テキスト類似性 (STS) が過小評価されていることがわかった。
本研究では,複数のSTSベンチマークにおいて高い性能を維持しつつ,テキスト生成問題としてSTSをキャストできることを示す。
さらに,世界知識に依存した複雑な意味関係を持つ2つのテキスト間の意味的類似性を特徴付ける場合,既存のエンコーダベースのSTSモデルよりも優れた生成性を示す。
この主張は,保健・政治・スポーツ分野における世界的知識を必要とする3つのSTSチャレンジセットに対して,ジェネレーティブLSMと既存のエンコーダベースのSTSモデルの両方を評価することによって検証される。
新たに収集されたデータは2023年5月以降に投稿されたソーシャルメディアコンテンツから収集され、chatgptのようなクローズドソースモデルのパフォーマンスは記憶に残ることができない。
以上の結果から, 生成LDMは, 世界の知識を必要とするSTSタスクにおいて, 平均22.3%, 最良エンコーダのみのベースラインを上回っていることがわかった。
この結果から,複雑なドメイン固有のSTSタスクにおいて,STS固有のプロンプト戦略を持つ生成言語モデルが最先端の性能を達成することが示唆された。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Exploration of Masked and Causal Language Modelling for Text Generation [6.26998839917804]
本稿では,テキスト生成タスクにおける因果言語モデリング手法の広範な比較を行う。
まず、定量的な指標を用いて、コヒーレンスと文法的正当性を分析する定性的な人的評価を行う。
その結果、すべてのデータセットでテキスト生成において、CLMは一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T09:33:31Z) - Enhancing LLM-based Test Generation for Hard-to-Cover Branches via Program Analysis [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。
27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-04-07T14:08:28Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - AnglE-optimized Text Embeddings [4.545354973721937]
本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。
AnglE の中核となる考え方は、複素空間に角度最適化を導入することである。
短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-09-22T13:52:42Z) - Measuring Reliability of Large Language Models through Semantic
Consistency [3.4990427823966828]
我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。
我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
論文 参考訳(メタデータ) (2022-11-10T20:21:07Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。