論文の概要: A City of Millions: Mapping Literary Social Networks At Scale
- arxiv url: http://arxiv.org/abs/2502.19590v2
- Date: Fri, 28 Mar 2025 21:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:30:42.756517
- Title: A City of Millions: Mapping Literary Social Networks At Scale
- Title(参考訳): 数百万の都市: 大規模にリテラリーソーシャルネットワークをマッピングする
- Authors: Sil Hamilton, Rebecca M. M. Hicke, David Mimno, Matthew Wilkens,
- Abstract要約: 我々は,多言語フィクションやノンフィクションから抽出した高品質なソーシャルネットワークを70,509件リリースする。
このデータセットは、前例のない規模で歴史的な社会世界に関する情報を提供する。
- 参考スコア(独自算出の注目度): 3.537369004801589
- License:
- Abstract: We release 70,509 high-quality social networks extracted from multilingual fiction and nonfiction narratives. We additionally provide metadata for $\sim$30,000 of these texts (73\% nonfiction and 27\% fiction) written between 1800 and 1999 in 58 languages. This dataset provides information on historical social worlds at an unprecedented scale, including data for 2,510,021 individuals in 2,805,482 pair-wise relationships annotated for affinity and relationship type. We achieve this scale by automating previously manual methods of extracting social networks; specifically, we adapt an existing annotation task as a language model prompt, ensuring consistency at scale with the use of structured output. This dataset serves as a unique resource for humanities and social science research by providing data on cognitive models of social realities.
- Abstract(参考訳): 我々は,多言語フィクションやノンフィクションから抽出した高品質なソーシャルネットワークを70,509件リリースする。
さらに1800年から1999年にかけて58言語で書かれた3万ドル(ノンフィクションと27セントフィクション)のメタデータも提供します。
このデータセットは、前例のない規模で歴史的社会世界に関する情報を提供し、親和性と関係タイプに注釈付けされた2,805,482人のペアワイズ関係の2,510,021人のデータを含んでいる。
具体的には,既存のアノテーションタスクを言語モデルプロンプトとして適応させ,構造化された出力を用いて大規模に一貫性を確保する。
このデータセットは、社会現実の認知モデルに関するデータを提供することによって、人文科学と社会科学研究のためのユニークなリソースとして機能する。
関連論文リスト
- OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Social-LLM: Modeling User Behavior at Scale using Language Models and
Social Network Data [13.660150473547766]
本稿では,ユーザ検出タスクにおけるソーシャルネットワークデータのモデリングに適した新しいアプローチを提案する。
提案手法は,局所的なソーシャルネットワークのインタラクションを,大規模言語モデルの能力と統合する。
実世界の7つのソーシャル・ネットワーク・データセットにまたがって、我々の手法を徹底的に評価する。
論文 参考訳(メタデータ) (2023-12-31T05:13:13Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - SODA: Million-scale Dialogue Distillation with Social Commonsense
Contextualization [129.1927527781751]
初となる,100万規模の社会対話データセットであるSODAを提示する。
知識グラフから社会的コモンセンス知識を文脈化することにより、社会的相互作用の非常に幅広いスペクトルを蒸留することができる。
人間による評価は、SODAにおける会話は、以前の人間によるデータセットよりも一貫性があり、特異であり、そして(当然のことながら)自然であることを示している。
論文 参考訳(メタデータ) (2022-12-20T17:38:47Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Social Analysis of Young Basque Speaking Communities in Twitter [0.9445512376558136]
バスク語で大量のつぶやきを処理することによって、人口統計分析を行うために、社会的側面と言語的側面の両方を考慮する。
階層的特徴と社会関係の研究は,機械学習と現代ディープラーニング自然言語処理(NLP)技術を適用して行われている。
論文 参考訳(メタデータ) (2021-09-08T08:19:08Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - I Know Where You Are Coming From: On the Impact of Social Media Sources
on AI Model Performance [79.05613148641018]
我々は、異なるソーシャルネットワークのマルチモーダルデータから学習する際、異なる機械学習モデルの性能について検討する。
最初の実験結果から,ソーシャルネットワークの選択がパフォーマンスに影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2020-02-05T11:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。