論文の概要: TelegramScrap: A comprehensive tool for scraping Telegram data
- arxiv url: http://arxiv.org/abs/2412.16786v1
- Date: Sat, 21 Dec 2024 21:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:01.042783
- Title: TelegramScrap: A comprehensive tool for scraping Telegram data
- Title(参考訳): TelegramScrap: Telegramデータをスクレイピングするための総合ツール
- Authors: Ergon Cugler de Moraes Silva,
- Abstract要約: TelegramScrapは、Telegramチャンネルやグループからデータを抽出して分析するツールである。
このホワイトペーパーは、学術・科学研究におけるツールの開発、能力、応用について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: [WhitePaper] The TelegramScrap tool provides a robust and versatile solution for extracting and analyzing data from Telegram channels and groups, addressing the increasing demand for efficient methods to study digital ecosystems. This white paper outlines the tool's development, capabilities, and applications in academic and scientific research, including studies on disinformation, political communication, and thematic patterns in online communities. Built with flexibility and user accessibility in mind, the tool allows researchers to customize scraping parameters, handle large datasets, and produce structured outputs in formats such as Excel and Parquet. Its modular architecture, real-time progress tracking, and error-handling mechanisms ensure reliability and scalability for diverse research needs. Emphasizing ethical data collection, the tool aligns with Telegram's terms of service and data privacy regulations, encouraging responsible use. Released under an open-source license, TelegramScrap invites the academic community to explore, adapt, and improve the tool while providing appropriate credit. This paper demonstrates the tool's impact through its application in multiple studies, showcasing its potential to advance computational social science and enhance understanding of digital interactions and societal trends [ Code available on GitHub: https://github.com/ergoncugler/web-scraping-telegram ].
- Abstract(参考訳): [WhitePaper]TelegramScrapツールは、Telegramチャンネルやグループからデータを抽出し分析するための堅牢で汎用的なソリューションを提供する。
このホワイトペーパーは、オンラインコミュニティにおける偽情報、政治コミュニケーション、テーマパターンの研究を含む、学術・科学研究におけるツールの開発、能力、応用について概説する。
柔軟性とユーザアクセシビリティを念頭に置いて構築されたこのツールは、スクレイピングパラメータをカスタマイズし、大きなデータセットを処理し、ExcelやParquetなどのフォーマットで構造化されたアウトプットを生成する。
モジュラーアーキテクチャ、リアルタイムプログレストラッキング、エラー処理機構により、多様な研究ニーズに対する信頼性とスケーラビリティが保証される。
倫理的データ収集を強調し、Telegramのサービスとデータプライバシの規則に準拠し、責任ある使用を奨励する。
TelegramScrapはオープンソースライセンスでリリースされ、学術コミュニティに適切なクレジットを提供しながらツールを調査、適応、改善するよう呼びかけている。
本稿では、そのツールが複数の研究に応用することによる影響を実証し、計算社会科学を進歩させ、デジタルインタラクションと社会的トレンドの理解を深める可能性を示す。
関連論文リスト
- Modeling offensive content detection for TikTok [0.0]
本研究では,攻撃内容を含むTikTokデータの収集と解析を行う。
攻撃的なコンテンツ検出のための一連の機械学習とディープラーニングモデルを構築している。
論文 参考訳(メタデータ) (2024-08-29T18:47:41Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - Time Series Analysis of Key Societal Events as Reflected in Complex
Social Media Data Streams [0.9790236766474201]
本研究では,ニッチなソーシャルメディアプラットフォームであるGABと,確立されたメッセージングサービスであるTelegramの物語進化について検討する。
我々のアプローチは、複数のソーシャルメディアドメインを調査し、他の方法では見えない重要な情報を排除するための新しいモードである。
主な知見は,(1) 時間線をデコンストラクトして, 解釈を改善するための有用なデータ機能を提供すること,(2) 一般化の基盤を提供する方法論を適用すること,である。
論文 参考訳(メタデータ) (2024-03-11T18:33:56Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - A Framework for Large Scale Synthetic Graph Dataset Generation [2.248608623448951]
この研究は、データセットをプロダクションサイズのグラフにスケールするスケーラブルな合成グラフ生成ツールを提案する。
このツールは、研究者にリリース可能なプロプライエタリなデータセットから、一連のパラメトリックモデルを学ぶ。
一連のデータセットにまたがるフレームワークの一般化可能性を示す。
論文 参考訳(メタデータ) (2022-10-04T22:41:33Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。