論文の概要: POLAR:A Per-User Association Test in Embedding Space
- arxiv url: http://arxiv.org/abs/2603.15950v1
- Date: Mon, 16 Mar 2026 21:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.009122
- Title: POLAR:A Per-User Association Test in Embedding Space
- Title(参考訳): POLAR:埋め込みスペースにおけるユーザ一人当たりのアソシエーションテスト
- Authors: Pedro Bento, Arthur Buzelin, Arthur Chagas, Yan Aquino, Victoria Estanislau, Samira Malaquias, Pedro Robles Dutenhefner, Gisele L. Pappa, Virgilio Almeida, Wagner MeiraJr,
- Abstract要約: POLARは、軽量に適応した言語モデルの埋め込み空間で実行されるユーザ毎の語彙関連テストである。
POLARはこれらのベクトルを硬化した語彙に投影し、置換 p-値とBenjamini--Hochberg 制御による標準化効果を報告している。
- 参考スコア(独自算出の注目度): 1.0228975391828266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most intrinsic association probes operate at the word, sentence, or corpus level, obscuring author-level variation. We present POLAR (Per-user On-axis Lexical Association Re-port), a per-user lexical association test that runs in the embedding space of a lightly adapted masked language model. Authors are represented by private deterministic to-kens; POLAR projects these vectors onto curated lexicalaxes and reports standardized effects with permutation p-values and Benjamini--Hochberg control. On a balanced bot--human Twitter benchmark, POLAR cleanly separates LLM-driven bots from organic accounts; on an extremist forum,it quantifies strong alignment with slur lexicons and reveals rightward drift over time. The method is modular to new attribute sets and provides concise, per-author diagnostics for computational social science. All code is publicly avail-able at https://github.com/pedroaugtb/POLAR-A-Per-User-Association-Test-in-Embedding-Space.
- Abstract(参考訳): ほとんどの本質的なアソシエーションプローブは、単語、文、またはコーパスレベルで動作し、著者レベルの変動を隠蔽する。
本稿では,POLAR(Per-user On-axis Lexical Association Re-port)について述べる。
POLARは、これらのベクトルを硬化したレキシカックスに投影し、置換p値とBenjamini-Hochbergコントロールによる標準化効果を報告する。バランスの取れたボット-ヒューマンTwitterベンチマークでは、POLARはLSM駆動のボットを有機的アカウントからきれいに分離する。極端なフォーラムでは、スラーレキシコンとの強い整合性を定量化し、時間の経過とともに右向きのドリフトを明らかにする。
この方法は、新しい属性セットにモジュール化され、計算社会科学のための簡潔で著者ごとの診断を提供する。
すべてのコードはhttps://github.com/pedroaugtb/POLAR-A-Per-User-Association-Test-in-Embedding-Spaceで公開されている。
関連論文リスト
- AIWizards at MULTIPRIDE: A Hierarchical Approach to Slur Reclamation Detection [0.42970700836450487]
本稿では,スラリー埋立過程をモデル化するための階層的アプローチを提案する。
私たちの中核的な仮定は、LGBTQ+コミュニティのメンバーは、特定のスラリーをエキュラティブな方法で採用する傾向にある、ということです。
イタリアとスペインの実験結果から,本手法は強いBERTベースラインと統計的に比較できることが示された。
論文 参考訳(メタデータ) (2026-02-13T11:01:19Z) - De-Anonymization at Scale via Tournament-Style Attribution [15.47801233755864]
De-Anonymization at Scale (DAS) は、数万の候補テキストに著者を帰属させる大規模な言語モデルに基づく手法である。
DASは、匿名プラットフォームに対して現実的なプライバシーリスクを示すために、数万のプールから、偶然よりもはるかに高い精度で、同じ著者のテキストを復元することができる。
論文 参考訳(メタデータ) (2026-01-18T13:49:43Z) - Limits of n-gram Style Control for LLMs via Logit-Space Injection [0.0]
大規模言語モデル(LLM)は、通常、プロンプトエンジニアリングやLoRAのようなパラメータ効率の良い微調整によってパーソナライズされる。
復号時にロジット空間に注入されたn-gramスタイルのフリーズをステアリングする、という軽量な代替案について検討する。
Don Quixote氏、CNN/DailyMailのニュースヘッドライン、arXivの抽象化などです。
論文 参考訳(メタデータ) (2026-01-12T23:52:55Z) - Measuring Scalar Constructs in Social Science with LLMs [48.92998035333579]
大規模言語モデルにおけるスカラー構造の測定手法の評価を行った。
LLMにスコアを直接出力させるよりも、ペアワイズ比較の方が優れた測定結果が得られることが分かりました。
訓練ペアを1,000個も持たない小型モデルは、誘導LDMの性能にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-09-03T08:19:13Z) - ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。
レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。
既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文 参考訳(メタデータ) (2024-06-27T01:37:57Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な関心事は、著作権のあるオンラインテキストを悪用するかどうかである。
本稿では,Web ユーザとコンテンツプラットフォームがtextbftextitunique 識別子を,信頼性と独立性のあるメンバシップ推論に活用することを提唱する,代替の textitinsert-and-detect 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - skweak: Weak Supervision Made Easy for NLP [13.37847225239485]
我々は、Pythonベースのソフトウェアツールキットskweakを紹介し、NLP開発者は幅広いNLPタスクに弱い監督を適用できる。
ドメイン知識から派生したラベル付け関数を使用して、指定されたデータセットのアノテーションを自動的に取得する。
得られたラベルは生成モデルで集約され、各ラベル関数の精度(および可能性のある混乱)を推定する。
論文 参考訳(メタデータ) (2021-04-19T23:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。