論文の概要: gambit -- An Open Source Name Disambiguation Tool for Version Control
Systems
- arxiv url: http://arxiv.org/abs/2103.05666v1
- Date: Tue, 9 Mar 2021 19:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-08 15:40:44.967300
- Title: gambit -- An Open Source Name Disambiguation Tool for Version Control
Systems
- Title(参考訳): gambit -- バージョン管理システムのためのオープンソースの名前曖昧化ツール
- Authors: Christoph Gote and Christian Zingg
- Abstract要約: 我々は、名前とメールの情報のみに依存するルールベースの曖昧化ツールであるGambitを提案する。
我々は,手動で不明瞭な地上構造データに類似した特徴を持つ2つのアルゴリズムに対して,その性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Name disambiguation is a complex but highly relevant challenge whenever
analysing real-world user data, such as data from version control systems. We
propose gambit, a rule-based disambiguation tool that only relies on name and
email information. We evaluate its performance against two commonly used
algorithms with similar characteristics on manually disambiguated ground-truth
data from the Gnome GTK project. Our results show that gambit significantly
outperforms both algorithms, achieving an F1 score of 0.985.
- Abstract(参考訳): 名前の曖昧さは、バージョン管理システムのデータなど、現実世界のユーザデータを分析する場合、複雑だが非常に関連性の高い問題である。
我々は、名前とメール情報のみに依存するルールベースの曖昧さ回避ツールであるgambitを提案する。
gnome gtk プロジェクトから得られた手作業による地中データに対する類似特性を持つ2つのアルゴリズムの性能評価を行った。
その結果, ガンビットは両アルゴリズムより有意に優れ, F1スコアは0.985であった。
関連論文リスト
- LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Maximum Independent Set: Self-Training through Dynamic Programming [56.670639478539485]
本研究では、動的プログラミング(DP)にインスパイアされた最大独立集合(MIS)問題を解決するグラフニューラルネットワーク(GNN)フレームワークを提案する。
GNNをベースとしたDPライクな再帰アルゴリズムを提案し、まず2つの小さなサブグラフを構築し、より大きなMISを持つサブグラフを予測し、次に再帰呼び出しを行う。
MISサイズに関する異なるグラフの比較を注釈付けすると、自己学習プロセスが発生し、比較をより正確に自己アノテーションし、その逆も引き起こされる。
論文 参考訳(メタデータ) (2023-10-28T10:58:25Z) - Learning Strong Graph Neural Networks with Weak Information [64.64996100343602]
我々は、弱い情報(GLWI)を用いたグラフ学習問題に対する原則的アプローチを開発する。
非完全構造を持つ入力グラフ上で長距離情報伝搬を行うデュアルチャネルGNNフレームワークであるD$2$PTを提案するが、グローバルな意味的類似性を符号化するグローバルグラフも提案する。
論文 参考訳(メタデータ) (2023-05-29T04:51:09Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Bridging the Sim2Real gap with CARE: Supervised Detection Adaptation
with Conditional Alignment and Reweighting [72.75792823726479]
条件整合と再重み付けによる条件付きドメイン翻訳(CARE)を提案する。
本稿では,提案アルゴリズムの解析的正当性を示し,標準ベンチマーク上での競合手法よりも強い利得を示す。
論文 参考訳(メタデータ) (2023-02-09T18:39:28Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - General and Domain Adaptive Chinese Spelling Check with Error Consistent
Pretraining [11.428660127879887]
我々は,事前学習のためのデータを生成するために,エラー一貫性マスキング戦略を採用した競争力のあるジェネラルスペルECSpellを開発した。
入力方式の一般的な実践にヒントを得て,ゼロショット領域適応問題に対処する変更可能なユーザ辞書を提案する。
論文 参考訳(メタデータ) (2022-03-21T12:49:44Z) - Generating automatically labeled data for author name disambiguation: An
iterative clustering method [5.094623170336122]
本稿では、電子メールアドレス、共著者名、引用参照を用いてラベル付きトレーニングデータを自動生成できることを示す。
各機能で名前インスタンスをマッチングするための高精度ルールは、外部の権威データベースを用いて決定される。
228Kの著者名インスタンスのうち26,566のインスタンスでテストされたこの反復クラスタリングは、ペアのF1 = 0.99で正確にラベル付けされたデータを生成した。
論文 参考訳(メタデータ) (2021-02-05T16:24:25Z) - Primer AI's Systems for Acronym Identification and Disambiguation [0.0]
頭字語識別と曖昧化のための新しい手法を提案する。
提案手法に比べて性能が大幅に向上した。
両システムは、SDU@AAAI-21共有タスクリーダーボード上で競合的に動作します。
論文 参考訳(メタデータ) (2020-12-14T23:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。