論文の概要: LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
- arxiv url: http://arxiv.org/abs/2503.08042v2
- Date: Wed, 04 Jun 2025 05:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.922635
- Title: LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
- Title(参考訳): LSC-Eval:LLM生成合成データを用いた語彙意味変化の次元評価のための一般的なフレームワーク
- Authors: Naomi Baes, Raphaël Merx, Nick Haslam, Ekaterina Vylomova, Haim Dubossarsky,
- Abstract要約: レキシカル・セマンティック・チェンジ(Lexical Semantic Change、LSC)は、文化的・社会的ダイナミクスに関する洞察を提供する。
異なる種類のLCCを測定する方法の妥当性は、過去のベンチマークデータセットがないために確立されていない。
本稿では,新しい3段階汎用評価フレームワーク LSC-Eval を提案する。
- 参考スコア(独自算出の注目度): 2.363288258212481
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lexical Semantic Change (LSC) provides insight into cultural and social dynamics. Yet, the validity of methods for measuring different kinds of LSC remains unestablished due to the absence of historical benchmark datasets. To address this gap, we propose LSC-Eval, a novel three-stage general-purpose evaluation framework to: (1) develop a scalable methodology for generating synthetic datasets that simulate theory-driven LSC using In-Context Learning and a lexical database; (2) use these datasets to evaluate the sensitivity of computational methods to synthetic change; and (3) assess their suitability for detecting change in specific dimensions and domains. We apply LSC-Eval to simulate changes along the Sentiment, Intensity, and Breadth (SIB) dimensions, as defined in the SIBling framework, using examples from psychology. We then evaluate the ability of selected methods to detect these controlled interventions. Our findings validate the use of synthetic benchmarks, demonstrate that tailored methods effectively detect changes along SIB dimensions, and reveal that a state-of-the-art LSC model faces challenges in detecting affective dimensions of LSC. LSC-Eval offers a valuable tool for dimension- and domain-specific benchmarking of LSC methods, with particular relevance to the social sciences.
- Abstract(参考訳): レキシカル・セマンティック・チェンジ(Lexical Semantic Change、LSC)は、文化的・社会的ダイナミクスに関する洞察を提供する。
しかし、過去のベンチマークデータセットがないため、異なる種類のLCCを測定する方法の妥当性は確立されていない。
このギャップに対処するために,(1)文脈学習と語彙データベースを用いて理論駆動型LCCをシミュレートするスケーラブルな合成データセットを生成するためのスケーラブルな方法論を開発すること,(2)計算手法の合成変化に対する感度を評価すること,(3)特定の次元や領域の変化を検出するための適合性を評価すること,の3段階の汎用評価フレームワークであるLSC-Evalを提案する。
我々は、SIBlingフレームワークで定義された感覚、強度、およびBreadth(SIB)次元の変化を心理学の例を用いてシミュレートするためにLCC-Evalを適用した。
次に、これらの制御された介入を検出するための選択された手法の能力を評価する。
提案手法は,SIB次元に沿った変化を効果的に検出し,現状のLCCモデルがLSCの感情的次元を検出する上で課題に直面していることを明らかにする。
LSC-Evalは、LCCメソッドの次元およびドメイン固有のベンチマークのための貴重なツールであり、特に社会科学に関連している。
関連論文リスト
- Structural DID with ML: Theory, Simulation, and a Roadmap for Applied Research [3.0031348283981987]
観測パネルデータの因果推論は、経済学、政治分析、より広範な社会科学において中心的な関心事となっている。
本稿では,構造同定と高次元推定を統合したS-DIDという革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T03:57:42Z) - Statistical Multicriteria Evaluation of LLM-Generated Text [0.20971479389679337]
我々は、一般化支配(GSD)に基づく統計的推測のための最近提案された枠組みに適応する。
GSDは、シングルメトリック評価の不適切性、基本的な自動測定値と順序的人間の判断の不適合性、推論された統計的保証の欠如に対処する。
この枠組みを適用して、人間の生成したテキストに対して共通の復号戦略を評価することにより、統計的に有意な性能差を識別できることを実証する。
論文 参考訳(メタデータ) (2025-06-22T16:08:44Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Cultural Alignment in Large Language Models Using Soft Prompt Tuning [3.4373727078460665]
大規模言語モデル(LLM)のアライメントは、従来は教師付き微調整や強化学習に基づくアライメントフレームワークに依存していた。
入力プロンプトの埋め込みを変更しながらモデルパラメータを凍結するソフトプロンプトチューニングと差分進化(DE)を組み合わせたパラメータ効率的な手法を提案する。
本手法は, LLama-3-8B-Instructの文化的次元において, 複数の領域にわたる顕著な改善を示す。
論文 参考訳(メタデータ) (2025-03-20T12:34:01Z) - DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models [39.493913608472404]
大規模言語モデル(LLM)に基づく文法的誤り訂正(GEC)モデルは、提供された金の参照から分岐する修正を生成することが多い。
この不一致は、従来の基準ベースの評価指標の信頼性を損なう。
本稿では,GECモデル,DSGram,Semantic Coherence,Edit Level,Fluencyを統合し,動的重み付け機構を活用する新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T11:54:16Z) - You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。
本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T10:17:43Z) - Systematic Characterization of the Effectiveness of Alignment in Large Language Models for Categorical Decisions [0.0]
本稿では,大規模言語モデル(LLM)において,医学的トリアージによるカテゴリー決定における選好アライメントを評価するための体系的手法を適用した。
また、アライメント手順が特定のモデルのアライメントをどのように効率的に変更するかを測定する。
その結果、モデル間のアライメントの有効性とアライメントアプローチの相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-18T19:03:04Z) - Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models'
Over-Reliance on Superficial Clue [51.713301130055065]
STMモデルにおける表面的手がかりの影響を解析・緩和する。
本稿では,GLS-CSC (Superficial Clue) を含む学習サンプルをトレーニング戦略として提案する。
GLS-CSCは,中国のSTMモデルの堅牢性と一般化性の向上の観点から,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-08T07:10:57Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization [52.44068740462729]
我々は、VICRegの目的に関する情報理論的な視点を示す。
我々は、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにした。
既存のSSL技術よりも優れた情報理論の原理から派生したSSL手法のファミリーを紹介する。
論文 参考訳(メタデータ) (2023-03-01T16:36:25Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Supply of engineering techniques and software design patterns in
psychoanalysis and psychometrics sciences [0.0]
本研究の目的は、心理療法におけるCBT法(認知行動療法)の弱点を改善するために、ソフトウェア技術、モデル、人工知能アルゴリズムを導入することである。
本研究の目的は、隠れた人間の変数が検査結果から推測される心理測定実験の実装である。
論文 参考訳(メタデータ) (2021-08-16T08:36:37Z) - Semantics Altering Modifications for Evaluating Comprehension in Machine
Reading [1.1355639618103164]
機械読解モデルがセマンティック・アターリング・モディフィケーションを正しく処理できるかどうかを検討する。
本稿では,原例と変更例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。
本手法を用いて,SAMデータを正しく処理する能力について,MRCモデルを評価する。
論文 参考訳(メタデータ) (2020-12-07T21:00:42Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Learning Similarity Metrics for Numerical Simulations [29.39625644221578]
本稿では,様々な数値シミュレーションソースから得られるデータを比較するため,安定かつ一般化された指標(LSiM)をニューラルネットワークで計算する手法を提案する。
提案手法は,計量の数学的性質を動機としたシームズネットワークアーキテクチャを用いている。
論文 参考訳(メタデータ) (2020-02-18T20:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。