論文の概要: Explainable Semantic Textual Similarity via Dissimilar Span Detection
- arxiv url: http://arxiv.org/abs/2603.21174v1
- Date: Sun, 22 Mar 2026 11:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.275861
- Title: Explainable Semantic Textual Similarity via Dissimilar Span Detection
- Title(参考訳): 異種スパン検出による説明可能な意味的テクスチャ類似性
- Authors: Diego Miguel Lozano, Daryna Dementieva, Alexander Fraser,
- Abstract要約: テキストのペア間で意味的に異なるスパンを識別することを目的として,DSD(Dissimilar Span Detection)タスクを導入する。
これにより、ユーザーはどの特定の単語やトークンが類似度スコアに悪影響を及ぼすかを理解したり、STS依存のダウンストリームタスクのパフォーマンス向上に使用することができる。
- 参考スコア(独自算出の注目度): 53.32175252285023
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantic Textual Similarity (STS) is a crucial component of many Natural Language Processing (NLP) applications. However, existing approaches typically reduce semantic nuances to a single score, limiting interpretability. To address this, we introduce the task of Dissimilar Span Detection (DSD), which aims to identify semantically differing spans between pairs of texts. This can help users understand which particular words or tokens negatively affect the similarity score, or be used to improve performance in STS-dependent downstream tasks. Furthermore, we release a new dataset suitable for the task, the Span Similarity Dataset (SSD), developed through a semi-automated pipeline combining large language models (LLMs) with human verification. We propose and evaluate different baseline methods for DSD, both unsupervised, based on LIME, SHAP, LLMs, and our own method, as well as an additional supervised approach. While LLMs and supervised models achieve the highest performance, overall results remain low, highlighting the complexity of the task. Finally, we set up an additional experiment that shows how DSD can lead to increased performance in the specific task of paraphrase detection.
- Abstract(参考訳): セマンティックテキスト類似性(STS)は多くの自然言語処理(NLP)アプリケーションにおいて重要なコンポーネントである。
しかし、既存のアプローチは通常、意味的なニュアンスを単一のスコアに減らし、解釈可能性を制限する。
そこで本研究では,テキストのペア間で意味的に異なるスパンを識別することを目的とした,DSD(Dissimilar Span Detection)タスクを提案する。
これにより、ユーザーはどの特定の単語やトークンが類似度スコアに悪影響を及ぼすかを理解したり、STS依存のダウンストリームタスクのパフォーマンス向上に使用することができる。
さらに,このタスクに適した新しいデータセットであるSpan similarity Dataset (SSD) を,大規模言語モデル(LLM)と人間の検証を組み合わせた半自動パイプラインによって開発する。
我々は, LIME, SHAP, LLM, および我々の独自の手法に基づいて, 教師なしのDSDの異なるベースライン手法を提案し, 評価する。
LLMと教師付きモデルは最高性能を達成するが、全体的な結果は低いままであり、タスクの複雑さを強調している。
最後に、DSDがパラフレーズ検出の特定のタスクにおいて、どのようにしてDSDがパフォーマンスを向上させるかを示す追加実験をセットアップした。
関連論文リスト
- Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs [39.84010804274527]
本稿では、解釈可能な機能空間におけるデータの多様性を測定する機能活性化カバレッジ(FAC)を紹介する。
この指標に基づいて,FAC合成という多様性駆動型データ合成フレームワークを提案する。
実験により,本手法は様々なタスクにおけるデータ多様性とダウンストリーム性能の両方を一貫して改善することが示された。
論文 参考訳(メタデータ) (2026-02-11T00:23:13Z) - Exploring the Performance of Large Language Models on Subjective Span Identification Tasks [21.931193759012725]
本稿では,3つのNLPタスクにおけるテキストスパン識別におけるLLM(Large Language Models)の評価について述べる。
命令チューニングや文脈内学習,思考の連鎖など,LLMの戦略について検討する。
以上の結果から, テキストスパンの特定において, LLM の基盤となる関係性が示唆された。
論文 参考訳(メタデータ) (2026-01-02T16:30:14Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。
解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。
提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-03-05T15:33:52Z) - Task-guided Disentangled Tuning for Pretrained Language Models [16.429787408467703]
本稿では,事前学習型言語モデル(PLM)のためのタスク誘導型ディスタングル型チューニング(TDT)を提案する。
TDTは、タスク関連信号を絡み合った表現から切り離すことにより、表現の一般化を強化する。
GLUE と CLUE のベンチマークによる実験結果から,TDT は異なる PLM を用いた微調整よりも一貫した結果が得られた。
論文 参考訳(メタデータ) (2022-03-22T03:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。