論文の概要: LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
- arxiv url: http://arxiv.org/abs/2503.08042v2
- Date: Wed, 04 Jun 2025 05:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.922635
- Title: LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
- Title(参考訳): LSC-Eval:LLM生成合成データを用いた語彙意味変化の次元評価のための一般的なフレームワーク
- Authors: Naomi Baes, Raphaël Merx, Nick Haslam, Ekaterina Vylomova, Haim Dubossarsky,
- Abstract要約: レキシカル・セマンティック・チェンジ(Lexical Semantic Change、LSC)は、文化的・社会的ダイナミクスに関する洞察を提供する。
異なる種類のLCCを測定する方法の妥当性は、過去のベンチマークデータセットがないために確立されていない。
本稿では,新しい3段階汎用評価フレームワーク LSC-Eval を提案する。
- 参考スコア(独自算出の注目度): 2.363288258212481
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lexical Semantic Change (LSC) provides insight into cultural and social dynamics. Yet, the validity of methods for measuring different kinds of LSC remains unestablished due to the absence of historical benchmark datasets. To address this gap, we propose LSC-Eval, a novel three-stage general-purpose evaluation framework to: (1) develop a scalable methodology for generating synthetic datasets that simulate theory-driven LSC using In-Context Learning and a lexical database; (2) use these datasets to evaluate the sensitivity of computational methods to synthetic change; and (3) assess their suitability for detecting change in specific dimensions and domains. We apply LSC-Eval to simulate changes along the Sentiment, Intensity, and Breadth (SIB) dimensions, as defined in the SIBling framework, using examples from psychology. We then evaluate the ability of selected methods to detect these controlled interventions. Our findings validate the use of synthetic benchmarks, demonstrate that tailored methods effectively detect changes along SIB dimensions, and reveal that a state-of-the-art LSC model faces challenges in detecting affective dimensions of LSC. LSC-Eval offers a valuable tool for dimension- and domain-specific benchmarking of LSC methods, with particular relevance to the social sciences.
- Abstract(参考訳): レキシカル・セマンティック・チェンジ(Lexical Semantic Change、LSC)は、文化的・社会的ダイナミクスに関する洞察を提供する。
しかし、過去のベンチマークデータセットがないため、異なる種類のLCCを測定する方法の妥当性は確立されていない。
このギャップに対処するために,(1)文脈学習と語彙データベースを用いて理論駆動型LCCをシミュレートするスケーラブルな合成データセットを生成するためのスケーラブルな方法論を開発すること,(2)計算手法の合成変化に対する感度を評価すること,(3)特定の次元や領域の変化を検出するための適合性を評価すること,の3段階の汎用評価フレームワークであるLSC-Evalを提案する。
我々は、SIBlingフレームワークで定義された感覚、強度、およびBreadth(SIB)次元の変化を心理学の例を用いてシミュレートするためにLCC-Evalを適用した。
次に、これらの制御された介入を検出するための選択された手法の能力を評価する。
提案手法は,SIB次元に沿った変化を効果的に検出し,現状のLCCモデルがLSCの感情的次元を検出する上で課題に直面していることを明らかにする。
LSC-Evalは、LCCメソッドの次元およびドメイン固有のベンチマークのための貴重なツールであり、特に社会科学に関連している。
関連論文リスト
- Cultural Alignment in Large Language Models Using Soft Prompt Tuning [3.4373727078460665]
大規模言語モデル(LLM)のアライメントは、従来は教師付き微調整や強化学習に基づくアライメントフレームワークに依存していた。
入力プロンプトの埋め込みを変更しながらモデルパラメータを凍結するソフトプロンプトチューニングと差分進化(DE)を組み合わせたパラメータ効率的な手法を提案する。
本手法は, LLama-3-8B-Instructの文化的次元において, 複数の領域にわたる顕著な改善を示す。
論文 参考訳(メタデータ) (2025-03-20T12:34:01Z) - You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。
本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T10:17:43Z) - Systematic Characterization of the Effectiveness of Alignment in Large Language Models for Categorical Decisions [0.0]
本稿では,大規模言語モデル(LLM)において,医学的トリアージによるカテゴリー決定における選好アライメントを評価するための体系的手法を適用した。
また、アライメント手順が特定のモデルのアライメントをどのように効率的に変更するかを測定する。
その結果、モデル間のアライメントの有効性とアライメントアプローチの相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-18T19:03:04Z) - Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Supply of engineering techniques and software design patterns in
psychoanalysis and psychometrics sciences [0.0]
本研究の目的は、心理療法におけるCBT法(認知行動療法)の弱点を改善するために、ソフトウェア技術、モデル、人工知能アルゴリズムを導入することである。
本研究の目的は、隠れた人間の変数が検査結果から推測される心理測定実験の実装である。
論文 参考訳(メタデータ) (2021-08-16T08:36:37Z) - Semantics Altering Modifications for Evaluating Comprehension in Machine
Reading [1.1355639618103164]
機械読解モデルがセマンティック・アターリング・モディフィケーションを正しく処理できるかどうかを検討する。
本稿では,原例と変更例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。
本手法を用いて,SAMデータを正しく処理する能力について,MRCモデルを評価する。
論文 参考訳(メタデータ) (2020-12-07T21:00:42Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。