論文の概要: The Battleship Approach to the Low Resource Entity Matching Problem
- arxiv url: http://arxiv.org/abs/2311.15685v1
- Date: Mon, 27 Nov 2023 10:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:13:31.622716
- Title: The Battleship Approach to the Low Resource Entity Matching Problem
- Title(参考訳): 低資源エンティティマッチング問題に対する戦艦のアプローチ
- Authors: Bar Genossar (1), Avigdor Gal (1) and Roee Shraga (2) ((1) Technion -
Israel Institute of Technology, (2) Worcester Polytechnic Institute)
- Abstract要約: 本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity matching, a core data integration problem, is the task of deciding
whether two data tuples refer to the same real-world entity. Recent advances in
deep learning methods, using pre-trained language models, were proposed for
resolving entity matching. Although demonstrating unprecedented results, these
solutions suffer from a major drawback as they require large amounts of labeled
data for training, and, as such, are inadequate to be applied to low resource
entity matching problems. To overcome the challenge of obtaining sufficient
labeled data we offer a new active learning approach, focusing on a selection
mechanism that exploits unique properties of entity matching. We argue that a
distributed representation of a tuple pair indicates its informativeness when
considered among other pairs. This is used consequently in our approach that
iteratively utilizes space-aware considerations. Bringing it all together, we
treat the low resource entity matching problem as a Battleship game, hunting
indicative samples, focusing on positive ones, through awareness of the latent
space along with careful planning of next sampling iterations. An extensive
experimental analysis shows that the proposed algorithm outperforms
state-of-the-art active learning solutions to low resource entity matching, and
although using less samples, can be as successful as state-of-the-art fully
trained known algorithms.
- Abstract(参考訳): エンティティマッチングは、コアデータ統合の問題であり、2つのデータタプルが同じ現実世界のエンティティを指すかどうかを決定するタスクである。
事前学習言語モデルを用いたディープラーニング手法の最近の進歩は,エンティティマッチングの解法として提案されている。
前例のない結果を示したが、これらのソリューションはトレーニングに大量のラベル付きデータを必要とするため大きな欠点に悩まされ、低リソースのエンティティマッチング問題に適用するには不十分である。
十分なラベル付きデータを得ることの難しさを克服するために,エンティティマッチングのユニークな特性を利用する選択機構に着目した,新たなアクティブラーニングアプローチを提案する。
我々は、タプル対の分散表現は、他のペアから考えると、その情報性を示すと論じる。
これは、空間を意識した考慮を反復的に利用するアプローチで使用されます。
これらすべてを組み合わせることで、低リソースのエンティティマッチング問題を戦艦ゲームとして扱い、潜在的な空間の認識と次のサンプリングイテレーションの慎重な計画を通じて、実証的なサンプルを探索し、ポジティブなサンプルに注目します。
広範な実験分析により、提案されたアルゴリズムは、最先端のアクティブラーニングソリューションよりも低リソースのエンティティマッチングに優れており、サンプルは少ないが、最先端の完全に訓練された既知のアルゴリズムと同じくらい成功した。
関連論文リスト
- Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Batch Active Learning from the Perspective of Sparse Approximation [12.51958241746014]
アクティブな学習は、機械学習エージェントと人間のアノテーションとのインタラクションを活用することで、効率的なモデルトレーニングを可能にする。
スパース近似の観点からバッチアクティブラーニングを定式化する新しいフレームワークを提案し,提案する。
我々のアクティブラーニング手法は、ラベルのないデータプールから、対応するトレーニング損失関数が、そのフルデータプールに近似するように、情報的サブセットを見つけることを目的としている。
論文 参考訳(メタデータ) (2022-11-01T03:20:28Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Byzantine Resilient Distributed Multi-Task Learning [6.850757447639822]
タスク間の関連性を学習するための分散アルゴリズムは、ビザンティンエージェントの存在下では回復力がないことを示す。
ビザンチンレジリエントな分散マルチタスク学習のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-25T04:32:52Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。