論文の概要: Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset
- arxiv url: http://arxiv.org/abs/2509.11136v1
- Date: Sun, 14 Sep 2025 07:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.93912
- Title: Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset
- Title(参考訳): オンラインプラットフォームにおけるエージェントユーザ名提案とマルチモーダルジェンダー検出:PNGT-26Kデータセットの導入
- Authors: Farbod Bijary, Mohsen Ebadpour, Amirhosein Tajbakhsh,
- Abstract要約: 本稿では,ペルシャ語名の包括的データセットであるPNGT-26Kについて紹介する。
また、Open Gender DetectionとNominalistという2つのフレームワークも導入しています。
PNGT-26Kデータセット、Nominalist、Open Gender DetectionフレームワークはGithubで公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Persian names present unique challenges for natural language processing applications, particularly in gender detection and digital identity creation, due to transliteration inconsistencies and cultural-specific naming patterns. Existing tools exhibit significant performance degradation on Persian names, while the scarcity of comprehensive datasets further compounds these limitations. To address these challenges, the present research introduces PNGT-26K, a comprehensive dataset of Persian names, their commonly associated gender, and their English transliteration, consisting of approximately 26,000 tuples. As a demonstration of how this resource can be utilized, we also introduce two frameworks, namely Open Gender Detection and Nominalist. Open Gender Detection is a production-grade, ready-to-use framework for using existing data from a user, such as profile photo and name, to give a probabilistic guess about the person's gender. Nominalist, the second framework introduced by this paper, utilizes agentic AI to help users choose a username for their social media accounts on any platform. It can be easily integrated into any website to provide a better user experience. The PNGT-26K dataset, Nominalist and Open Gender Detection frameworks are publicly available on Github.
- Abstract(参考訳): ペルシア語の名前は、特にジェンダー検出とデジタルアイデンティティ生成において、トランスリテラルの不整合と文化固有の命名パターンのために、自然言語処理アプリケーションに固有の課題を提示する。
既存のツールではペルシャ語でのパフォーマンスが大幅に低下する一方、包括的なデータセットの不足はこれらの制限をさらに複雑にしている。
これらの課題に対処するため,本研究ではペルシャ語姓の包括的データセットであるPNGT-26Kと,約26,000のタプルからなる英訳を導入した。
このリソースの活用方法の実証として,Open Gender Detection と Nominalist という2つのフレームワークを導入する。
Open Gender Detectionは、プロファイル写真や名前などのユーザからの既存のデータを使用して、その人の性別を確率論的に推測するための、プロダクショングレードで使えるフレームワークである。
本稿で紹介された第2のフレームワークであるNominalistは,エージェントAIを使用して,任意のプラットフォーム上でソーシャルメディアアカウントのユーザ名を選択する。
どんなウェブサイトにも簡単に統合でき、より良いユーザー体験を提供できる。
PNGT-26Kデータセット、Nominalist、Open Gender DetectionフレームワークはGithubで公開されている。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Gendec: A Machine Learning-based Framework for Gender Detection from
Japanese Names [0.0]
本研究は,ロマジ,ヒラガナ,漢字の64,139名のフルネームと,その生物学的性別を併用した日本語名の性別検出のための新しいデータセットを提示する。
我々は,従来の機械学習技術や最先端の移動学習モデルなど,多様なアプローチを利用する日本語名から性別検出を行うフレームワークであるGendecを提案する。
論文 参考訳(メタデータ) (2023-11-18T07:46:59Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - For the Underrepresented in Gender Bias Research: Chinese Name Gender
Prediction with Heterogeneous Graph Attention Network [1.13608321568471]
コンポーネント関係における不均一性を捉え,文字の発音を組み込むために,中国異種グラフ注意(CHGAT)モデルを設計する。
我々のモデルは現在のツールをはるかに上回り、最先端のアルゴリズムよりも優れています。
私たちは、よりバランスのとれた複数文字のデータセットを、公式のソースから、私たちのコードとともにオープンソース化しました。
論文 参考訳(メタデータ) (2023-02-01T13:08:50Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - What's in a Name? -- Gender Classification of Names with Character Based
Machine Learning Models [6.805167389805055]
本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。
1億人以上の利用者のファーストネームを分析したところ、性別は名前文字列の合成によって非常に効果的に分類できることがわかった。
論文 参考訳(メタデータ) (2021-02-07T01:01:32Z) - Gender Prediction Based on Vietnamese Names with Machine Learning
Techniques [2.7528170226206443]
ベトナム語名に基づくジェンダー予測のための新しいデータセットを提案する。
このデータセットは、性別で注釈付けされた26,000以上のフルネームで構成されている。
本稿では、6つの機械学習アルゴリズムと、ベトナム語の性別予測のための高速テキスト単語埋め込みを用いた深層学習モデル(LSTM)について述べる。
論文 参考訳(メタデータ) (2020-10-21T09:25:48Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。