Fugu-MT 論文翻訳(概要): Do Transaction-Level and Actor-Level AML Queues Agree? An Empirical Evaluation of Granularity Effects on the Elliptic++ Graph

論文の概要: Do Transaction-Level and Actor-Level AML Queues Agree? An Empirical Evaluation of Granularity Effects on the Elliptic++ Graph

arxiv url: http://arxiv.org/abs/2604.23494v1
Date: Sun, 26 Apr 2026 01:54:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.393256
Title: Do Transaction-Level and Actor-Level AML Queues Agree? An Empirical Evaluation of Granularity Effects on the Elliptic++ Graph
Title（参考訳）: トランザクションレベルとアクタレベルAMLキューは集約されるか? 楕円型++グラフにおける粒度効果の実証評価
Authors: Ankur Malik,
Abstract要約: グラフベースの反マネーロンダリングシステムは、トランザクションとアクターアドレスという2つの粒度の不審なアクティビティをスコアできるが、アクター毎のコンプライアンスアクションが実行される。本報告では, 一定の審査予算の下で, 粒度が調査待ち行列の構成にどのように影響するかを評価するための評価手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graph-based anti-money laundering (AML) systems on blockchain networks can score suspicious activity at two granularity levels -- transactions or actor addresses -- yet compliance action is conducted per actor. This paper contributes an evaluation methodology for measuring how scoring granularity affects investigation queue composition under fixed review budgets. We formalize the evaluation through a projection framework mapping transaction-level scores to the actor-level action unit via four aggregation operators, and introduce budgeted investigation metrics -- yield@budget, burden decomposition, and case fragmentation. Using the public Elliptic++ Bitcoin dataset (203,769 transactions; 822,942 address occurrences), we train independent random forest classifiers at each level under a causal temporal protocol and compare review queues through Jaccard overlap, burden decomposition, and feature-matching ablations. At one-percent budget, temporal evaluation yields mean Jaccard of 0.374 (SD 0.171); static pooled evaluation yields 0.087 (95% CI [0.079, 0.094]). An enriched address model receiving all 237 features produces even lower overlap (Jaccard=0.051), with 4.3% illicit per 100 reviews versus 30.2% for the transaction-projected queue. Address-level detection value is temporally concentrated: two timesteps exceed 91% illicit per 100 reviews while the static burden is only 3.4%. A fixed hybrid policy underperforms the best single-level queue by 5.05pp (CI [-10.2pp, -0.9pp]). These findings establish that scoring granularity is a consequential design variable for AML investigation systems -- same data, same budget, different queues, different addresses investigated.
Abstract（参考訳）: ブロックチェーンネットワーク上のグラフベースのアンチマネーロンダリング(AML)システムは、トランザクションとアクターアドレスという2つの粒度の不審なアクティビティをスコアできるが、アクター毎にコンプライアンスアクションを実行する。本報告では, 一定の審査予算の下で, 粒度が調査待ち行列の構成にどのように影響するかを評価するための評価手法を提案する。本研究では,4つの集約演算子を用いて,トランザクションレベルスコアをアクターレベルアクションユニットにマッピングするプロジェクションフレームワークを通じて評価を形式化し,予算付調査指標である yield@budget,重み分解,ケースフラグメンテーションを導入する。パブリックなElliptic++ Bitcoinデータセット(203,769トランザクション、822,942アドレス発生)を使用して、因果時間プロトコルの下で各レベルで独立したランダムフォレスト分類器をトレーニングし、Jaccardオーバーラップ、重み分解、特徴マッチングによるレビューキューを比較する。 1パーセントの予算では、時間評価は0.374(SD 0.171)、静的プール評価は0.087(95% CI [0.079, 0.094])となる。 237の機能を全て受信する拡張アドレスモデルは、さらに低い重なり(Jaccard=0.051)、100レビューあたり4.3%が不正であるのに対して、トランザクションプロジェクションキューは30.2%である。アドレスレベルの検出値は時間的に集中している: 2つのタイムステップは100レビューあたり91%の違法値を超え、静的な負担は3.4%である。固定ハイブリッドポリシーは、最高のシングルレベルキューを5.05pp(CI [-10.2pp, -0.9pp])で上回る。これらの結果は、スコアリングの粒度が、AMLの調査システム(同じデータ、同じ予算、異なるキュー、調査対象の異なるアドレス)の連続的な設計変数であることを証明している。

関連論文リスト

AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。 AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文参考訳（メタデータ） (2026-04-26T07:38:47Z)
Reliable Self-Harm Risk Screening via Adaptive Multi-Agent LLM Systems [6.14481021961242]
有向非巡回グラフ(DAG)として構造化されたマルチエージェントパイプラインの統計的枠組みを提案する。我々は各エージェントをカテゴリー決定としてモデル化し、より厳密なエージェントレベルのパフォーマンス信頼境界を導入する。本研究では,2つのラベル付きデータセットを用いた行動保健システムの評価を行った。
論文参考訳（メタデータ） (2026-04-24T01:52:54Z)
Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode [9.116800340266066]
Claude Codeの自動モードは、AIコーディングエージェントに最初にデプロイされたパーミッションシステムである。 Anthropicは、生産トラフィックに対して0.4%の偽陽性率と17%の偽陰性率を報告している。本研究では, 個々の行動レベルでの状態変化行動253件を, オラクル・グラウンドの真理に対して評価した。
論文参考訳（メタデータ） (2026-04-04T17:56:30Z)
On Randomness in Agentic Evals [6.177270420667714]
エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
論文参考訳（メタデータ） (2026-02-06T19:49:13Z)
Almost Asymptotically Optimal Active Clustering Through Pairwise Observations [59.20614082241528]
そこで本研究では, ノイズと能動的に収集された応答を用いて, M$アイテムを未知数の$K$個別グループにクラスタリングするための新しい分析フレームワークを提案する。クラスタリングの精度に対する望ましい信頼性を達成するのに必要なクエリ数の基本的下位境界を確立する。我々は、一般化された同値比統計の計算可能な変種を開発し、その下限に対する性能ギャップを正確に推定できることを実証的に示す。
論文参考訳（メタデータ） (2026-02-05T14:16:47Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
AMLNet: A Knowledge-Based Multi-Agent Framework to Generate and Detect Realistic Money Laundering Transactions [3.1459290341742676]
AMLNetは知識ベースのマルチエージェントフレームワークで、2つの調整されたユニット、規制対応トランザクションジェネレータとアンサンブル検出パイプラインを備えている。このジェネレータはコア洗浄フェーズと高度なタイポロジーにまたがる1,090,173の合成トランザクションを生成する。検出アンサンブルF1 0.90は、外部のSynthAMLデータセットに適応し、アーキテクチャ上の一般化性を示している。
論文参考訳（メタデータ） (2025-09-15T05:25:46Z)
Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文参考訳（メタデータ） (2023-12-25T01:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。