論文の概要: Relation Extraction or Pattern Matching? Unravelling the Generalisation Limits of Language Models for Biographical RE
- arxiv url: http://arxiv.org/abs/2505.12533v1
- Date: Sun, 18 May 2025 20:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.291864
- Title: Relation Extraction or Pattern Matching? Unravelling the Generalisation Limits of Language Models for Biographical RE
- Title(参考訳): 関係抽出かパターンマッチングか? : 伝記REにおける言語モデルの一般化限界について
- Authors: Varvara Arzt, Allan Hanbury, Michael Wiegand, Gábor Recski, Terra Blevins,
- Abstract要約: 関係抽出モデルは、類似した領域内であっても、目に見えないデータと競合することを示す。
我々の結果は、語彙的類似性ではなく、データ品質がロバスト転送の鍵であることを示しています。
- 参考スコア(独自算出の注目度): 18.616344314400244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analysing the generalisation capabilities of relation extraction (RE) models is crucial for assessing whether they learn robust relational patterns or rely on spurious correlations. Our cross-dataset experiments find that RE models struggle with unseen data, even within similar domains. Notably, higher intra-dataset performance does not indicate better transferability, instead often signaling overfitting to dataset-specific artefacts. Our results also show that data quality, rather than lexical similarity, is key to robust transfer, and the choice of optimal adaptation strategy depends on the quality of data available: while fine-tuning yields the best cross-dataset performance with high-quality data, few-shot in-context learning (ICL) is more effective with noisier data. However, even in these cases, zero-shot baselines occasionally outperform all cross-dataset results. Structural issues in RE benchmarks, such as single-relation per sample constraints and non-standardised negative class definitions, further hinder model transferability.
- Abstract(参考訳): 関係抽出(RE)モデルの一般化能力を解析することは、堅牢な関係パターンを学習するか、あるいは素早い相関に依存するかを評価する上で重要である。
我々のクロスデータセット実験では、REモデルは、類似したドメイン内であっても、目に見えないデータと競合することがわかった。
特に、より高いデータセット内パフォーマンスは、よりよい転送可能性を示すものではなく、データセット固有のアーティファクトへの過度な適合を示唆することが多い。
また,データ品質は語彙的類似性ではなく,ロバスト転送の鍵であり,最適な適応戦略の選択はデータの品質に依存している。
しかし、そのような場合でさえ、ゼロショットのベースラインは、時としてすべてのデータセットの結果より優れている。
REベンチマークにおける構造的問題、例えばサンプルの制約ごとのシングルリレーションや非標準の負のクラス定義は、モデル転送可能性をさらに妨げている。
関連論文リスト
- CALF: A Conditionally Adaptive Loss Function to Mitigate Class-Imbalanced Segmentation [0.2902243522110345]
不均衡データセットは、医学診断のためのディープラーニング(DL)モデルのトレーニングにおいて課題となる。
本稿では,DLトレーニングにおける不均衡データセットの条件を満たすために,新しい,統計的に駆動された条件適応型損失関数(CALF)を提案する。
論文 参考訳(メタデータ) (2025-04-06T12:03:33Z) - Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。
絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。
本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文 参考訳(メタデータ) (2025-03-18T15:40:18Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。