論文の概要: Foundational Study on Authorship Attribution of Japanese Web Reviews for Actor Analysis
- arxiv url: http://arxiv.org/abs/2604.16376v1
- Date: Tue, 24 Mar 2026 08:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.941307
- Title: Foundational Study on Authorship Attribution of Japanese Web Reviews for Actor Analysis
- Title(参考訳): アクター分析のための日本語Webレビューの著者属性に関する基礎研究
- Authors: Hiroshi Matsubara, Shingo Matsugaya, Taichi Aoki, Masaki Hashimoto,
- Abstract要約: 本研究では,脅威知能におけるアクター分析を支援するためのスタイリスティックな特徴に基づく著者属性の適用性について検討した。
ダークウェブフォーラムへの将来的な応用に向けた基礎的なステップとして,透明なWebソースからの日本語レビューデータを用いた実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the applicability of authorship attribution based on stylistic features to support actor analysis in threat intelligence. As a foundational step toward future application to dark web forums, we conducted experiments using Japanese review data from clear web sources. We constructed datasets from Rakuten Ichiba reviews and compared four methods: TF-IDF with logistic regression (TF-IDF+LR), BERT embeddings with logistic regression (BERT-Emb+LR), BERT fine-tuning (BERT-FT), and metric learning with $k$-nearest neighbors (Metric+kNN). Results showed that BERT-FT achieved the best performance; however, training became unstable as the number of authors scaled to several hundred, where TF-IDF+LR proved superior in terms of accuracy, stability, and computational cost. Furthermore, Top-$k$ evaluation demonstrated the utility of candidate screening, and error analysis revealed that boilerplate text, topic dependency, and short text length were primary factors causing misclassification.
- Abstract(参考訳): 本研究では,脅威知能のアクター分析を支援するためのスタイリスティックな特徴に基づく著者属性の適用性について検討した。
ダークウェブフォーラムへの将来的な応用に向けた基礎的なステップとして,透明なWebソースからの日本語レビューデータを用いた実験を行った。
楽天一葉のレビューからデータセットを構築し,ロジスティック回帰(TF-IDF+LR),ロジスティック回帰(BERT-Emb+LR),BERTファインチューニング(BERT-FT),k$-nearest隣人(Metric+kNN)のメトリクス学習(Metric+kNN)の4つの手法を比較した。
その結果、BERT-FTは最高の性能を示したが、著者数が数百に拡大するにつれてトレーニングは不安定になり、TF-IDF+LRは精度、安定性、計算コストの点で優れていることがわかった。
さらに、Top-k$の評価では、候補スクリーニングの有用性が示され、エラー解析により、ボイラープレートテキスト、トピック依存性、短いテキスト長が、誤分類の原因となる主要な要因であることが判明した。
関連論文リスト
- Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - Unlocking Reasoning Capability on Machine Translation in Large Language Models [57.60641851466707]
推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。
明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
論文 参考訳(メタデータ) (2026-02-16T14:05:59Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - Automatic Essay Scoring and Feedback Generation in Basque Language Learning [4.218073067465283]
本稿では,CEFR C1の習熟度を目標とした,AES(Automatic Essay Scoring)とフィードバック生成のための最初の公開データセットを紹介する。
データセットは、HABEから3,200のエッセイで構成され、それぞれ専門家評価者によって注釈付けされ、正確さ、豊かさ、一貫性、凝集度、タスクアライメントを詳細にフィードバックとエラーの例で表現する。
RoBERTa-EusCrawlやLatxa 8B/70Bといったオープンソースモデルを、スコアリングと説明生成の両方のために微調整します。
論文 参考訳(メタデータ) (2025-12-09T15:28:35Z) - Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation [2.699704259580951]
テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。
一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
論文 参考訳(メタデータ) (2025-11-03T11:45:26Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language [1.3465808629549525]
本稿では,Hausaにおける5000のYouTubeコメントとコードスイッチによる英語を含む新しいベンチマークデータセットを提案する。
このデータセットを用いて、古典モデルと微調整変換器モデルの比較分析を行う。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-17T22:57:21Z) - ULFine: Unbiased Lightweight Fine-tuning for Foundation-Model-Assisted Long-Tailed Semi-Supervised Learning [27.467732819969935]
本稿では,Long-Tailed Semi-Supervised Learning (LTSSL) における大規模視覚基盤モデルの効果について検討する。
我々はリニアプローブ(LP)、軽量ファインチューニング(LFT)、フルファインチューニング(FFT)の3つの戦略を採用している。
i) LTSSLアルゴリズムと比較して,FFTはモデル性能が低下するのに対し,LPとLFTはモデル性能を向上するが,テールクラスには無視できる利点がある。
我々は無バイアス軽量ファインチューニング戦略である textbfULFine を提案する。
論文 参考訳(メタデータ) (2025-05-08T08:54:57Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。