論文の概要: A City of Millions: Mapping Literary Social Networks At Scale
- arxiv url: http://arxiv.org/abs/2502.19590v1
- Date: Wed, 26 Feb 2025 22:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 17:31:07.866436
- Title: A City of Millions: Mapping Literary Social Networks At Scale
- Title(参考訳): 数百万の都市: 大規模にリテラリーソーシャルネットワークをマッピングする
- Authors: Sil Hamilton, Rebecca M. M. Hicke, David Mimno, Matthew Wilkens,
- Abstract要約: このデータセットは、前例のない規模で歴史的な社会世界に関する情報を提供する。
これには1,192,855人のデータが含まれており、2,805,482人のペアワイド関係が親和性と関係タイプにアノテートされている。
- 参考スコア(独自算出の注目度): 3.537369004801589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We release 70,509 high-quality social networks extracted from multilingual fiction and nonfiction narratives. We additionally provide metadata for ~30,000 of these texts (73% nonfiction and 27% fiction) written between 1800 and 1999 in 58 languages. This dataset provides information on historical social worlds at an unprecedented scale, including data for 1,192,855 individuals in 2,805,482 pair-wise relationships annotated for affinity and relationship type. We achieve this scale by automating previously manual methods of extracting social networks; specifically, we adapt an existing annotation task as a language model prompt, ensuring consistency at scale with the use of structured output. This dataset provides an unprecedented resource for the humanities and social sciences by providing data on cognitive models of social realities.
- Abstract(参考訳): 我々は,多言語フィクションやノンフィクションから抽出した高品質なソーシャルネットワークを70,509件リリースする。
さらに1800年から1999年にかけて58言語で書かれた3万のテキスト(ノンフィクション73%、フィクション27%)のメタデータも提供します。
このデータセットは、前例のない規模の歴史的社会世界に関する情報を提供し、親和性と関係タイプに注釈を付けた2,805,482人の1,192,855人の個人のデータを含んでいる。
具体的には,既存のアノテーションタスクを言語モデルプロンプトとして適応させ,構造化された出力を用いて大規模に一貫性を確保する。
このデータセットは、社会現実の認知モデルに関するデータを提供することにより、人文科学や社会科学にとって前例のない資源を提供する。
関連論文リスト
- OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Social-LLM: Modeling User Behavior at Scale using Language Models and
Social Network Data [13.660150473547766]
本稿では,ユーザ検出タスクにおけるソーシャルネットワークデータのモデリングに適した新しいアプローチを提案する。
提案手法は,局所的なソーシャルネットワークのインタラクションを,大規模言語モデルの能力と統合する。
実世界の7つのソーシャル・ネットワーク・データセットにまたがって、我々の手法を徹底的に評価する。
論文 参考訳(メタデータ) (2023-12-31T05:13:13Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - SODA: Million-scale Dialogue Distillation with Social Commonsense
Contextualization [129.1927527781751]
初となる,100万規模の社会対話データセットであるSODAを提示する。
知識グラフから社会的コモンセンス知識を文脈化することにより、社会的相互作用の非常に幅広いスペクトルを蒸留することができる。
人間による評価は、SODAにおける会話は、以前の人間によるデータセットよりも一貫性があり、特異であり、そして(当然のことながら)自然であることを示している。
論文 参考訳(メタデータ) (2022-12-20T17:38:47Z) - Language Independent Stance Detection: Social Interaction-based Embeddings and Large Language Models [4.899818550820576]
本稿では,テキストそのものではなく,ソーシャルネットワーク上で利用できるインタラクションに重点を置くことで,姿勢検出の課題に取り組むことを目的とする。
埋め込みを生成することで友達のリツイートなどのソーシャル情報を活用できる新しい手法を提案する。
公開されている7つのデータセットと4つの異なる言語に関する実験により、リレーショナルな埋め込みと差別的なテキストの手法を組み合わせることで、パフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T18:13:43Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - I Know Where You Are Coming From: On the Impact of Social Media Sources
on AI Model Performance [79.05613148641018]
我々は、異なるソーシャルネットワークのマルチモーダルデータから学習する際、異なる機械学習モデルの性能について検討する。
最初の実験結果から,ソーシャルネットワークの選択がパフォーマンスに影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2020-02-05T11:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。