Fugu-MT 論文翻訳(概要): gambit -- An Open Source Name Disambiguation Tool for Version Control Systems

論文の概要: gambit -- An Open Source Name Disambiguation Tool for Version Control Systems

arxiv url: http://arxiv.org/abs/2103.05666v1
Date: Tue, 9 Mar 2021 19:10:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-08 15:40:44.967300
Title: gambit -- An Open Source Name Disambiguation Tool for Version Control Systems
Title（参考訳）: gambit -- バージョン管理システムのためのオープンソースの名前曖昧化ツール
Authors: Christoph Gote and Christian Zingg
Abstract要約: 我々は、名前とメールの情報のみに依存するルールベースの曖昧化ツールであるGambitを提案する。我々は,手動で不明瞭な地上構造データに類似した特徴を持つ2つのアルゴリズムに対して,その性能を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Name disambiguation is a complex but highly relevant challenge whenever analysing real-world user data, such as data from version control systems. We propose gambit, a rule-based disambiguation tool that only relies on name and email information. We evaluate its performance against two commonly used algorithms with similar characteristics on manually disambiguated ground-truth data from the Gnome GTK project. Our results show that gambit significantly outperforms both algorithms, achieving an F1 score of 0.985.
Abstract（参考訳）: 名前の曖昧さは、バージョン管理システムのデータなど、現実世界のユーザデータを分析する場合、複雑だが非常に関連性の高い問題である。我々は、名前とメール情報のみに依存するルールベースの曖昧さ回避ツールであるgambitを提案する。 gnome gtk プロジェクトから得られた手作業による地中データに対する類似特性を持つ2つのアルゴリズムの性能評価を行った。その結果, ガンビットは両アルゴリズムより有意に優れ, F1スコアは0.985であった。

関連論文リスト

Decision Making under Imperfect Recall: Algorithms and Benchmarks [77.12503122836422]
本稿では,不完全-再コール決定問題に対する最初のベンチマークスイートを紹介する。私たちのベンチマークでは、AIシステムのプライバシに関するものなど、さまざまな問題タイプを捉えています。このような問題における一階最適戦略を見つけるために,異なるアルゴリズムの性能を評価する。
論文参考訳（メタデータ） (2026-02-16T23:19:01Z)
Retrieval-Augmented Self-Taught Reasoning Model with Adaptive Chain-of-Thought for ASR Named Entity Correction [12.483998165719981]
自動音声認識(ASR)における名前付きエンティティエラーの修正のための検索拡張生成フレームワークを提案する。提案手法は,(1)名前付きエンティティ認識のための言い換え言語モデル(RLM)と,(2)タスクの難易度に基づいて推論の深さを動的に調整する適応チェーン・オブ・シント(A-STAR)を用いた新しい自己学習推論モデルからなる。
論文参考訳（メタデータ） (2026-01-21T15:05:39Z)
Benchmarking Fraud Detectors on Private Graph Data [70.4654745317714]
現在、多くの種類の不正は、グラフ上で動く自動検出アルゴリズムによって部分的に管理されている。データ保有者が不正検知器の開発を第三者にアウトソースしようとするシナリオを考察する。サードパーティは、不正検出をデータ保持者に送信し、これらのアルゴリズムをプライベートデータセットで評価し、その結果を公表する。本システムに対する現実的なプライバシ攻撃を提案し,評価結果のみに基づいて個人データの匿名化を可能にする。
論文参考訳（メタデータ） (2025-07-30T03:20:15Z)
LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-09-20T13:53:37Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文参考訳（メタデータ） (2023-11-27T14:17:41Z)
Maximum Independent Set: Self-Training through Dynamic Programming [56.670639478539485]
本研究では、動的プログラミング(DP)にインスパイアされた最大独立集合(MIS)問題を解決するグラフニューラルネットワーク(GNN)フレームワークを提案する。 GNNをベースとしたDPライクな再帰アルゴリズムを提案し、まず2つの小さなサブグラフを構築し、より大きなMISを持つサブグラフを予測し、次に再帰呼び出しを行う。 MISサイズに関する異なるグラフの比較を注釈付けすると、自己学習プロセスが発生し、比較をより正確に自己アノテーションし、その逆も引き起こされる。
論文参考訳（メタデータ） (2023-10-28T10:58:25Z)
Learning Strong Graph Neural Networks with Weak Information [64.64996100343602]
我々は、弱い情報(GLWI)を用いたグラフ学習問題に対する原則的アプローチを開発する。非完全構造を持つ入力グラフ上で長距離情報伝搬を行うデュアルチャネルGNNフレームワークであるD$2$PTを提案するが、グローバルな意味的類似性を符号化するグローバルグラフも提案する。
論文参考訳（メタデータ） (2023-05-29T04:51:09Z)
A Gold Standard Dataset for the Reviewer Assignment Problem [70.45113777449373]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。研究コミュニティにリリースした類似度スコアの新しいデータセットを収集します。
論文参考訳（メタデータ） (2023-03-23T16:15:03Z)
Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文参考訳（メタデータ） (2023-03-07T15:07:57Z)
Bridging the Sim2Real gap with CARE: Supervised Detection Adaptation with Conditional Alignment and Reweighting [72.75792823726479]
条件整合と再重み付けによる条件付きドメイン翻訳(CARE)を提案する。本稿では,提案アルゴリズムの解析的正当性を示し,標準ベンチマーク上での競合手法よりも強い利得を示す。
論文参考訳（メタデータ） (2023-02-09T18:39:28Z)
Author Name Disambiguation via Heterogeneous Network Embedding from Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。意味表現はNLPツールを使用して生成される。
論文参考訳（メタデータ） (2022-12-24T11:22:34Z)
General and Domain Adaptive Chinese Spelling Check with Error Consistent Pretraining [11.428660127879887]
我々は,事前学習のためのデータを生成するために,エラー一貫性マスキング戦略を採用した競争力のあるジェネラルスペルECSpellを開発した。入力方式の一般的な実践にヒントを得て,ゼロショット領域適応問題に対処する変更可能なユーザ辞書を提案する。
論文参考訳（メタデータ） (2022-03-21T12:49:44Z)
Generating automatically labeled data for author name disambiguation: An iterative clustering method [5.094623170336122]
本稿では、電子メールアドレス、共著者名、引用参照を用いてラベル付きトレーニングデータを自動生成できることを示す。各機能で名前インスタンスをマッチングするための高精度ルールは、外部の権威データベースを用いて決定される。 228Kの著者名インスタンスのうち26,566のインスタンスでテストされたこの反復クラスタリングは、ペアのF1 = 0.99で正確にラベル付けされたデータを生成した。
論文参考訳（メタデータ） (2021-02-05T16:24:25Z)
Primer AI's Systems for Acronym Identification and Disambiguation [0.0]
頭字語識別と曖昧化のための新しい手法を提案する。提案手法に比べて性能が大幅に向上した。両システムは、SDU@AAAI-21共有タスクリーダーボード上で競合的に動作します。
論文参考訳（メタデータ） (2020-12-14T23:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。