論文の概要: DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain
- arxiv url: http://arxiv.org/abs/2602.22045v1
- Date: Wed, 25 Feb 2026 15:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.892103
- Title: DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain
- Title(参考訳): DLT-Corpus:分散Ledgerテクノロジドメインのための大規模テキストコレクション
- Authors: Walter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu,
- Abstract要約: DLT-Corpusは、DLT(Distributed Ledger Technology)研究のための、これまでで最大のドメイン固有のテキストコレクションである。
DLT-Corpusの実用性は、技術出現パターンと市場革新相関を解析することによって実証する。
我々は、DLT固有の名前付きエンティティ認識(NER)タスクでBERTベースよりも23%改善されたドメイン適応モデルであるLedgerBERTの完全なDLT-Corpusをリリースする。
- 参考スコア(独自算出の注目度): 3.991743319942882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce DLT-Corpus, the largest domain-specific text collection for Distributed Ledger Technology (DLT) research to date: 2.98 billion tokens from 22.12 million documents spanning scientific literature (37,440 publications), United States Patent and Trademark Office (USPTO) patents (49,023 filings), and social media (22 million posts). Existing Natural Language Processing (NLP) resources for DLT focus narrowly on cryptocurrencies price prediction and smart contracts, leaving domain-specific language under explored despite the sector's ~$3 trillion market capitalization and rapid technological evolution. We demonstrate DLT-Corpus' utility by analyzing technology emergence patterns and market-innovation correlations. Findings reveal that technologies originate in scientific literature before reaching patents and social media, following traditional technology transfer patterns. While social media sentiment remains overwhelmingly bullish even during crypto winters, scientific and patent activity grow independently of market fluctuations, tracking overall market expansion in a virtuous cycle where research precedes and enables economic growth that funds further innovation. We publicly release the full DLT-Corpus; LedgerBERT, a domain-adapted model achieving 23% improvement over BERT-base on a DLT-specific Named Entity Recognition (NER) task; and all associated tools and code.
- Abstract(参考訳): DLT-Corpusは、科学文献(37,440の出版物)、米国特許商標庁(USPTO)の特許(49,023の出願物)、ソーシャルメディア(2200万の投稿物)にまたがる2212万件の文書から98億件のトークンを収集する。
DLTの既存の自然言語処理(NLP)リソースは、暗号通貨の価格予測とスマートコントラクトに焦点を絞っており、このセクターの市場資本化と急速な技術進化にもかかわらず、ドメイン固有の言語は検討されていない。
DLT-Corpusの実用性は、技術出現パターンと市場革新相関を解析することによって実証する。
発見によると、技術は従来の技術移転パターンに従って、特許やソーシャルメディアに到達する前に科学文献から生まれる。
暗号通貨の冬の間でさえ、ソーシャルメディアの感情は圧倒的に強気だが、科学と特許活動は市場の変動とは無関係に成長し、研究が先行し、さらなるイノベーションを助長する経済成長を可能にする活発なサイクルで市場拡大を追跡する。
DLT固有の名前付きエンティティ認識(NER)タスクでBERTベースよりも23%改善されたドメイン適応モデルであるLedgerBERTと、関連するツールとコードをすべて公開しています。
関連論文リスト
- Analyzing Political Text at Scale with Online Tensor LDA [53.16930342547758]
本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
論文 参考訳(メタデータ) (2025-11-11T03:58:48Z) - PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。
我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。
我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文 参考訳(メタデータ) (2025-10-25T03:24:13Z) - A Global Dataset Mapping the AI Innovation from Academic Research to Industrial Patents [2.8191246153416243]
DeepInnovationAIは3つの構造化ファイルを含む包括的なグローバルデータセットである。
DeepInnovationAIは、研究者、政策立案者、業界リーダーがトレンドを予測し、コラボレーションの機会を特定することを可能にする。
論文 参考訳(メタデータ) (2025-03-12T10:56:02Z) - From Hypothesis to Publication: A Comprehensive Survey of AI-Driven Research Support Systems [40.10425916520717]
近年、人工知能(AI)技術の急速な発展は、研究者にAIが研究を加速し、強化する方法を探るきっかけとなった。
本稿では,本領域の進展を体系的に概観する。
我々は,関連する研究を仮説定式化,仮説検証,原稿出版という3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-03-03T11:27:13Z) - O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - Measuring Technological Convergence in Encryption Technologies with
Proximity Indices: A Text Mining and Bibliometric Analysis using OpenAlex [46.3643544723237]
本研究は,サイバーセキュリティにおける新興技術間の技術的収束を明らかにする。
提案手法は,テキストマイニングとバイオロメトリ分析を統合し,技術的近接指標の定式化と予測を行う。
我々のケーススタディでは、ブロックチェーンと公開鍵暗号の間にかなりの収束が見られ、その近さが証明されている。
論文 参考訳(メタデータ) (2024-03-03T20:03:03Z) - Evolution of ESG-focused DLT Research: An NLP Analysis of the Literature [3.6935539346560766]
DLT(Distributed Ledger Technology)は、環境監視の強化に直面している。
既存のDLTの文献レビューでは、フィールドの複雑さとESGの懸念を完全に把握できなかった。
自然言語処理(NLP)を用いて24,539の出版物の全文を,DLT用の39,427のエンティティを手動でラベル付けしたNERデータセットを用いて解析した。
論文 参考訳(メタデータ) (2023-08-23T20:42:32Z) - Artificial Intelligence in Concrete Materials: A Scientometric View [77.34726150561087]
本章は, コンクリート材料用AI研究の主目的と知識構造を明らかにすることを目的としている。
まず、1990年から2020年にかけて発行された389の雑誌記事が、ウェブ・オブ・サイエンスから検索された。
キーワード共起分析やドキュメント共起分析などのサイエントメトリックツールを用いて,研究分野の特徴と特徴を定量化した。
論文 参考訳(メタデータ) (2022-09-17T18:24:56Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。