Fugu-MT 論文翻訳(概要): ALMs: Authorial Language Models for Authorship Attribution

論文の概要: ALMs: Authorial Language Models for Authorship Attribution

arxiv url: http://arxiv.org/abs/2401.12005v1
Date: Mon, 22 Jan 2024 14:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 13:49:25.427426
Title: ALMs: Authorial Language Models for Authorship Attribution
Title（参考訳）: ALMs:オーサリング属性のためのオーサライザ言語モデル
Authors: Weihang Huang and Akira Murakami and Jack Grieve
Abstract要約: 我々は権威言語モデル(ALM)と呼ばれる著者帰属手法を導入する。 CCAT50データセットとBlogs50データセットを使用して、ALMを最先端システムと比較した。 ALMは,Blogs50で83.6%,CCAT50で74.9%,マクロ平均精度で83.6%のスコアを達成している。
参考スコア（独自算出の注目度）: 1.2584276673531931
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we introduce an authorship attribution method called Authorial Language Models (ALMs) that involves identifying the most likely author of a questioned document based on the perplexity of the questioned document calculated for a set of causal language models fine-tuned on the writings of a set of candidate author. We benchmarked ALMs against state-of-art-systems using the CCAT50 dataset and the Blogs50 datasets. We find that ALMs achieves a macro-average accuracy score of 83.6% on Blogs50, outperforming all other methods, and 74.9% on CCAT50, matching the performance of the best method. To assess the performance of ALMs on shorter texts, we also conducted text ablation testing. We found that to reach a macro-average accuracy of 70%, ALMs needs 40 tokens on Blogs50 and 400 tokens on CCAT50, while to reach 60% ALMs requires 20 tokens on Blogs50 and 70 tokens on CCAT50.
Abstract（参考訳）: 本稿では,候補著者の著作に基づいて微調整された因果関係言語モデルを用いて算出された質問文書のパープレキシティに基づいて,質問文書の最も可能性の高い著者を特定することを含む,著作者言語モデル(alms)と呼ばれる著者帰属法を提案する。 CCAT50データセットとBlogs50データセットを使用して、ALMを最先端システムと比較した。 ALMは,Blogs50で83.6%,CCAT50で74.9%,マクロ平均精度で83.6%のスコアを達成している。短いテキストにおけるalmsの性能を評価するために,テキストアブレーションテストも行った。マクロ平均精度が70%に達するには,blogs50では40トークン,ccat50では400トークン,blogs50では60トークン,ccat50では70トークンが必要となる。

関連論文リスト

WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution [10.538442986619147]
State-of-the-art large language model (LLM)は、様々な言語でソースコードのオーサリングに成功している。 LLMは、悪質な攻撃に対する敵対的な堅牢性を示す。本稿では,大規模属性に対するトーナメント方式のアプローチを提案する。
論文参考訳（メタデータ） (2025-01-14T14:46:19Z)
Let your LLM generate a few tokens and you will reduce the need for retrieval [1.0878040851638]
大規模言語モデル(LLM)は、パラメトリックメモリに解答がすでに格納されているかどうかをトレーニングすることができる。 IK(I Know)スコアを計算するためにLLM-as-a-judgeを蒸留する。
論文参考訳（メタデータ） (2024-12-16T08:13:14Z)
Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。 ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文参考訳（メタデータ） (2024-11-09T11:13:14Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
BYOC: Personalized Few-Shot Classification with Co-Authored Class Descriptions [2.076173115539025]
LLMを用いた少数ショットテキスト分類のための新しい手法を提案する。わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。例、質問、回答は、分類プロンプトを形成するために要約される。
論文参考訳（メタデータ） (2023-10-09T19:37:38Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。 ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文参考訳（メタデータ） (2023-05-24T06:55:09Z)
IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation Identification Through a Prompt-based Few-shot Approach [3.4423596432619754]
我々は、微調整言語モデル(LM)のための単純だが相補的手法のセットを活用することで、因果関係同定(CRI)タスクに対処する。我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う微調整LMのプロンプトベースの予測手法に従う。本手法の性能を,データセット全体で訓練されたアンサンブル手法と比較する。
論文参考訳（メタデータ） (2022-09-08T16:03:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。