論文の概要: Diversity Over Quantity: A Lesson From Few Shot Relation Classification
- arxiv url: http://arxiv.org/abs/2412.05434v1
- Date: Fri, 06 Dec 2024 21:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:08.047331
- Title: Diversity Over Quantity: A Lesson From Few Shot Relation Classification
- Title(参考訳): 数量に関する多様性: ショット関係の分類から学ぶ
- Authors: Amir DN Cohen, Shauli Ravfogel, Shaltiel Shmidman, Yoav Goldberg,
- Abstract要約: 多様な関係の集合に対するトレーニングは、モデルが目に見えない関係を一般化する能力を大幅に向上させることを示す。
我々は、既存のデータセットよりも桁違いに多くの関係型を組み込んだ新しいFSRCベンチマークであるREBEL-FSを紹介する。
- 参考スコア(独自算出の注目度): 62.66895901654023
- License:
- Abstract: In few-shot relation classification (FSRC), models must generalize to novel relations with only a few labeled examples. While much of the recent progress in NLP has focused on scaling data size, we argue that diversity in relation types is more crucial for FSRC performance. In this work, we demonstrate that training on a diverse set of relations significantly enhances a model's ability to generalize to unseen relations, even when the overall dataset size remains fixed. We introduce REBEL-FS, a new FSRC benchmark that incorporates an order of magnitude more relation types than existing datasets. Through systematic experiments, we show that increasing the diversity of relation types in the training data leads to consistent gains in performance across various few-shot learning scenarios, including high-negative settings. Our findings challenge the common assumption that more data alone leads to better performance and suggest that targeted data curation focused on diversity can substantially reduce the need for large-scale datasets in FSRC.
- Abstract(参考訳): 少数ショット関係分類(FSRC)では、モデルがいくつかのラベル付き例で新しい関係に一般化されなければならない。
NLPの最近の進歩は、データサイズの拡大に重点を置いているが、FSRCのパフォーマンスには、関係型の多様性がより不可欠である、と我々は論じている。
本研究は,データセットサイズが一定である場合でも,多種多様な関係のトレーニングにより,モデルが予期せぬ関係を一般化する能力が著しく向上することを示す。
我々は、既存のデータセットよりも桁違いに多くの関係型を組み込んだ新しいFSRCベンチマークであるREBEL-FSを紹介する。
体系的な実験を通して、トレーニングデータにおける関係型の多様性の増大は、高負の設定を含む、いくつかのショット学習シナリオにおいて、一貫したパフォーマンス向上をもたらすことを示す。
我々の研究結果は、より多くのデータだけでより良いパフォーマンスをもたらすという一般的な仮定に挑戦し、多様性を重視したターゲットデータキュレーションがFSRCにおける大規模データセットの必要性を大幅に減らすことを示唆している。
関連論文リスト
- $\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。
例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文 参考訳(メタデータ) (2024-10-07T03:15:11Z) - Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features [30.11073476165794]
関係分類(RC)は、自然言語理解と知識グラフ補完において重要な役割を担っている。
RCに対する従来のアプローチは、機能工学やディープラーニングベースに関わらず、共通タイプの関係を分類する上で有望な性能が得られる。
本稿では,数発学習がRCにとって極めて重要な課題であると考え,数発学習における計量学習の近代的枠組みを改良する。
論文 参考訳(メタデータ) (2024-09-06T03:28:38Z) - Balancing Similarity and Complementarity for Federated Learning [91.65503655796603]
フェデレートラーニング(FL)は、モバイルとIoTシステムにおいてますます重要になっている。
FLの重要な課題の1つは、非i.d.データのような統計的不均一性を管理することである。
FL協調における類似性と相補性のバランスをとる新しいフレームワークである texttFedSaC を導入する。
論文 参考訳(メタデータ) (2024-05-16T08:16:19Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Evaluating and Incentivizing Diverse Data Contributions in Collaborative
Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。
データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。
我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文 参考訳(メタデータ) (2023-06-08T23:38:25Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。