論文の概要: ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Language
- arxiv url: http://arxiv.org/abs/2411.05172v1
- Date: Thu, 07 Nov 2024 20:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:52.452339
- Title: ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Language
- Title(参考訳): ImpScore: 言語の重要度を定量化するための学習可能なメトリクス
- Authors: Yuxin Wang, Xiaomeng Zhu, Weimin Lyu, Saeed Hassanpour, Soroush Vosoughi,
- Abstract要約: インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
ImpScoreは、12,580$(単純文、明示文)のペアからなる特別なキュレートされたデータセットに対して、ペアのコントラスト学習を使用してトレーニングされる。
- 参考スコア(独自算出の注目度): 40.4052848203136
- License:
- Abstract: Handling implicit language is essential for natural language processing systems to achieve precise text understanding and facilitate natural interactions with users. Despite its importance, the absence of a robust metric for accurately measuring the implicitness of language significantly constrains the depth of analysis possible in evaluating models' comprehension capabilities. This paper addresses this gap by developing a scalar metric that quantifies the implicitness level of language without relying on external references. Drawing on principles from traditional linguistics, we define ''implicitness'' as the divergence between semantic meaning and pragmatic interpretation. To operationalize this definition, we introduce ImpScore, a novel, reference-free metric formulated through an interpretable regression model. This model is trained using pairwise contrastive learning on a specially curated dataset comprising $112,580$ (implicit sentence, explicit sentence) pairs. We validate ImpScore through a user study that compares its assessments with human evaluations on out-of-distribution data, demonstrating its accuracy and strong correlation with human judgments. Additionally, we apply ImpScore to hate speech detection datasets, illustrating its utility and highlighting significant limitations in current large language models' ability to understand highly implicit content. The metric model and its training data are available at https://github.com/audreycs/ImpScore.
- Abstract(参考訳): 暗黙的な言語を扱うことは、自然言語処理システムにとって、正確なテキスト理解とユーザとの自然な対話を促進するために不可欠である。
その重要性にもかかわらず、言語の暗黙性を正確に測定する堅牢な計量がないことは、モデルの理解能力を評価する上で可能な分析の深さを著しく制限する。
本稿では、外部参照に頼ることなく、言語の暗黙度レベルを定量化するスカラー計量を開発することにより、このギャップに対処する。
従来の言語学の原則に基づき、意味論的意味と実践的解釈の相違として「単純さ」を定義した。
この定義を運用するために、解釈可能な回帰モデルにより定式化された新しい参照なし計量であるImpScoreを導入する。
このモデルは、12,580$(単純文、明示文)ペアからなる特別なキュレートされたデータセットに対して、ペアワイズコントラスト学習を用いて訓練される。
InmpScoreのユーザによる評価とアウト・オブ・ディストリビューションデータによる人的評価を比較し,その精度と人的判断との強い相関性を実証した。
さらに、ImpScoreを音声検出データセットの嫌悪に適用し、その実用性を説明し、非常に暗黙的なコンテンツを理解する能力において、現在の大規模言語モデルの重大な制限を強調します。
メトリックモデルとそのトレーニングデータはhttps://github.com/audreycs/ImpScoreで公開されている。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Knowledge Graph Guided Semantic Evaluation of Language Models For User
Trust [7.063958622970576]
本研究では、明示的な知識グラフ構造を利用して、自己注意変換器の符号化意味性を評価する。
言語モデルの不透明さは、信頼と説明可能な決定結果の社会的問題に大きく影響している。
論文 参考訳(メタデータ) (2023-05-08T18:53:14Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。