論文の概要: Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach
- arxiv url: http://arxiv.org/abs/2502.10453v1
- Date: Wed, 12 Feb 2025 01:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:23.781700
- Title: Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach
- Title(参考訳): 暗号化属性タグと知識グラフエンティティのリンク:LLMに基づくアプローチ
- Authors: Régnier Avice, Bernhard Haslhofer, Zhidong Li, Jianlong Zhou,
- Abstract要約: 本稿では,帰属タグと知識グラフの概念を関連付けるために,Large Language Models (LLMs) に基づく新しい計算手法を提案する。
このアプローチは、F1スコアのベースラインメソッドを3つのパブリックな属性タグデータセットで37.4%向上させる。
本手法は属性タグの品質を高めるだけでなく,より信頼性の高い法医学的証拠を育成するための青写真としても機能する。
- 参考スコア(独自算出の注目度): 4.348296766881638
- License:
- Abstract: Attribution tags form the foundation of modern cryptoasset forensics. However, inconsistent or incorrect tags can mislead investigations and even result in false accusations. To address this issue, we propose a novel computational method based on Large Language Models (LLMs) to link attribution tags with well-defined knowledge graph concepts. We implemented this method in an end-to-end pipeline and conducted experiments showing that our approach outperforms baseline methods by up to 37.4% in F1-score across three publicly available attribution tag datasets. By integrating concept filtering and blocking procedures, we generate candidate sets containing five knowledge graph entities, achieving a recall of 93% without the need for labeled data. Additionally, we demonstrate that local LLM models can achieve F1-scores of 90%, comparable to remote models which achieve 94%. We also analyze the cost-performance trade-offs of various LLMs and prompt templates, showing that selecting the most cost-effective configuration can reduce costs by 90%, with only a 1% decrease in performance. Our method not only enhances attribution tag quality but also serves as a blueprint for fostering more reliable forensic evidence.
- Abstract(参考訳): 属性タグは現代の暗号解読法医学の基礎を形成する。
しかし、矛盾したタグや不正なタグは、調査を誤解させ、偽の告発を招きかねない。
そこで本研究では,帰属タグと知識グラフの概念を関連付けるために,Large Language Models (LLMs) に基づく新しい計算手法を提案する。
我々は,この手法をエンドツーエンドパイプラインで実装し,提案手法がF1スコアのベースライン手法を3つの公開属性タグデータセットで最大37.4%向上させることを示す実験を行った。
概念フィルタリングとブロッキングの手順を統合することで、5つの知識グラフエンティティを含む候補セットを生成し、ラベル付きデータを必要とせずに93%のリコールを達成する。
さらに、ローカルLLMモデルは94%の遠隔モデルに匹敵する90%のF1スコアを達成できることを示した。
また、様々なLCMのコストパフォーマンストレードオフを分析し、最もコスト効率の良い構成を選択することでコストを90%削減でき、性能は1%しか低下しないことを示した。
本手法は属性タグの品質を高めるだけでなく,より信頼性の高い法医学的証拠を育成するための青写真としても機能する。
関連論文リスト
- Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。
SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文 参考訳(メタデータ) (2024-07-07T18:27:59Z) - Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery [6.037276428689637]
本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(Disdiscovery Graph)を紹介する。
本手法は,手作業と比較して文書レビューコストを99.9%削減し,LCMに基づく分類法と比較して95%削減する。
論文 参考訳(メタデータ) (2024-05-29T15:08:55Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Pearls from Pebbles: Improved Confidence Functions for Auto-labeling [51.44986105969375]
しきい値に基づく自動ラベル付け(TBAL)は、上記のモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
本稿では,近位TBAL信頼度関数の研究のための枠組みを提案する。
本稿では,TBALシステムの性能を最大化するポストホック法を提案する。
論文 参考訳(メタデータ) (2024-04-24T20:22:48Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。