論文の概要: Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs
- arxiv url: http://arxiv.org/abs/2410.01141v1
- Date: Wed, 2 Oct 2024 00:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:00:28.030834
- Title: Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs
- Title(参考訳): NLPとLCMを用いた意味的類似性に着目した経済研究用紙の復号化手法の評価
- Authors: Doohee You, Karim Lasri, Samuel Fraiberger,
- Abstract要約: 本研究では, 大規模NLPデータセットの効率的な復号化手法について検討した。
以上の結果から,異なる手法で観察された意味的類似性に基づく重複の頻度が低い可能性が示唆された。
- 参考スコア(独自算出の注目度): 3.736076215794136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates efficient deduplication techniques for a large NLP dataset of economic research paper titles. We explore various pairing methods alongside established distance measures (Levenshtein distance, cosine similarity) and a sBERT model for semantic evaluation. Our findings suggest a potentially low prevalence of duplicates based on the observed semantic similarity across different methods. Further exploration with a human-annotated ground truth set is completed for a more conclusive assessment. The result supports findings from the NLP, LLM based distance metrics.
- Abstract(参考訳): 本研究では, 大規模NLPデータセットの効率的な復号化手法について検討した。
我々は,確立された距離測定(Levenshtein distance,cosine similarity)と意味評価のためのsBERTモデルとともに,様々なペアリング手法を探索する。
以上の結果から,異なる手法で観察された意味的類似性に基づく重複の頻度が低い可能性が示唆された。
より決定的な評価のために、人間の注釈付き地上真実セットによるさらなる探索が完了する。
その結果,NLP,LPMに基づく距離測定結果が得られた。
関連論文リスト
- Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering [1.9214041945441436]
本稿では,Large Language Model (LLM) のセマンティクスを評価するための新しいアプローチを提案する。
本稿では,LLM再応答が意味論的に一致しているかどうかを考察し,構文的に異なる文が同じ意味を持つ可能性があることを認識した。
TruthfulQAデータセットを用いてLLM応答を評価することにより、37のカテゴリにわたる意味的一貫性を測定するために、質問毎にNの応答を誘導し、意味的に等価な文をクラスタ化する。
論文 参考訳(メタデータ) (2024-10-20T16:21:25Z) - Chain of Stance: Stance Detection with Large Language Models [3.528201746844624]
スタンス検出は自然言語処理(NLP)におけるアクティブタスクである
我々は、Stance (CoS) の textitChain と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T16:30:51Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Expanding Horizons in HCI Research Through LLM-Driven Qualitative
Analysis [3.5253513747455303]
大規模言語モデル(LLM)を用いたHCIにおける定性解析の新しいアプローチを提案する。
以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。
論文 参考訳(メタデータ) (2024-01-07T12:39:31Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z) - Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the
Research Manifold [88.83876819883653]
我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示す。
NLP研究は正方形ではなく、精度だけでなく、公平性や解釈可能性にも焦点をあてる。
論文 参考訳(メタデータ) (2022-06-20T13:04:23Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - A Discussion on Practical Considerations with Sparse Regression
Methodologies [0.0]
統計科学に掲載された2つの論文は、いくつかのスパース回帰法の比較性能について研究している。
この2つの研究を要約して比較し,ユーザへの明快さと価値の提供を目指す。
論文 参考訳(メタデータ) (2020-11-18T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。