論文の概要: Splits! A Flexible Dataset and Evaluation Framework for Sociocultural Linguistic Investigation
- arxiv url: http://arxiv.org/abs/2504.04640v2
- Date: Thu, 31 Jul 2025 15:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.9512
- Title: Splits! A Flexible Dataset and Evaluation Framework for Sociocultural Linguistic Investigation
- Title(参考訳): スプリットス! 社会文化言語調査のためのフレキシブルデータセットと評価フレームワーク
- Authors: Eylon Caplan, Tania Chakraborty, Dan Goldwasser,
- Abstract要約: 系統的で柔軟な研究のためにデザインされたRedditの970万のポストデータセットであるSplits!を紹介します。
このデータセットには、6つの人口グループにわたる53,000人以上のユーザーからの投稿が含まれており、89の議論トピックで構成されている。
我々は,このデータセットを,効率的な検索手法を利用して,社会文化的言語現象(SLP)の可能性を急速に検証するフレームワークで補完する。
この2段階のプロセスは,手動検査を必要とする統計的に有意な発見数を1.5~1.8倍に減少させることを示した。
- 参考スコア(独自算出の注目度): 17.722429998521168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variation in language use, shaped by speakers' sociocultural background and specific context of use, offers a rich lens into cultural perspectives, values, and opinions. However, the computational study of these Sociocultural Linguistic Phenomena (SLP) has often been limited to bespoke analyses of specific groups or topics, hindering the pace of scientific discovery. To address this, we introduce Splits!, a 9.7 million-post dataset from Reddit designed for systematic and flexible research. The dataset contains posts from over 53,000 users across 6 demographic groups, organized into 89 discussion topics to enable comparative analysis. We validate Splits! via self-identification and by successfully replicating several known SLPs from existing literature. We complement this dataset with a framework that leverages efficient retrieval methods to rapidly validate potential SLPs (PSLPs) by automatically evaluating whether a given hypothesis is supported by our data. Crucially, to distinguish between novel and obvious insights, the framework incorporates a human-validated measure of a hypothesis's ``unexpectedness.'' We demonstrate that the two-stage process reduces the number of statistically significant findings requiring manual inspection by a factor of 1.5-1.8x, streamlining the discovery of promising phenomena for further investigation.
- Abstract(参考訳): 言語使用のバリエーションは、話者の社会文化的背景と特定の使用状況によって形成され、文化的な視点、価値観、意見に豊かなレンズを提供する。
しかしながら、これらの社会文化的言語現象(SLP)の計算的研究は、しばしば特定のグループやトピックの分析に限られており、科学的発見のペースを妨げている。
これを解決するために、系統的で柔軟な研究のためにデザインされたRedditの970万のポストデータセットであるSplits!を紹介します。
このデータセットには、6つの人口グループにまたがる53,000人以上のユーザーからの投稿が含まれており、比較分析を可能にする89の議論トピックにまとめられている。
我々は、自己識別と、既存の文献からのいくつかの既知のSLPの複製に成功して、Splits!を検証した。
我々はこのデータセットを、効率的な検索手法を利用して、仮説がデータによって支持されているかどうかを自動的に評価し、潜在的SLP(PSLP)を迅速に検証するフレームワークで補完する。
重要なことに、このフレームワークは、新しい洞察と明白な洞察を区別するために、仮説の「予期せぬ」の人間検証された尺度を組み込んでいる。
1.5-1.8xの因子による手動検査を必要とする統計的に有意な発見数を2段階に減らし,将来的な現象の発見の合理化を図った。
関連論文リスト
- Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering [2.6094411360258185]
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
論文 参考訳(メタデータ) (2022-03-02T18:24:10Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Improved and Interpretable Deep Metric Learning via Attentive
Grouping [103.71992720794421]
グループ化は、様々な特徴の計算にディープ・メトリック・ラーニングでよく用いられてきた。
本稿では,任意のメトリクス学習フレームワークと柔軟に統合可能な,改良された解釈可能なグループ化手法を提案する。
論文 参考訳(メタデータ) (2020-11-17T19:08:24Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。