論文の概要: Measuring Social Integration Through Participation: Categorizing Organizations and Leisure Activities in the Displaced Karelians Interview Archive using LLMs
- arxiv url: http://arxiv.org/abs/2602.15436v1
- Date: Tue, 17 Feb 2026 08:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.017748
- Title: Measuring Social Integration Through Participation: Categorizing Organizations and Leisure Activities in the Displaced Karelians Interview Archive using LLMs
- Title(参考訳): 参加による社会的統合の計測: LLMを用いた転職したカレリア人インタビューアーカイブにおける組織分類とレジャー活動
- Authors: Joonatan Laato, Veera Schroderus, Jenna Kanerva, Jenni Kauppi, Virpi Lummaa, Filip Ginter,
- Abstract要約: 我々は,参加の鍵となる側面を捉えた分類フレームワークを開発する。
複数のモデル実行にまたがる単純な投票手法を用いることで、オープンウェイト LLM が専門家の判断と密接に一致していることが分かる。
- 参考スコア(独自算出の注目度): 2.373317705249957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digitized historical archives make it possible to study everyday social life on a large scale, but the information extracted directly from text often does not directly allow one to answer the research questions posed by historians or sociologists in a quantitative manner. We address this problem in a large collection of Finnish World War II Karelian evacuee family interviews. Prior work extracted more than 350K mentions of leisure time activities and organizational memberships from these interviews, yielding 71K unique activity and organization names -- far too many to analyze directly. We develop a categorization framework that captures key aspects of participation (the kind of activity/organization, how social it typically is, how regularly it happens, and how physically demanding it is). We annotate a gold-standard set to allow for a reliable evaluation, and then test whether large language models can apply the same schema at scale. Using a simple voting approach across multiple model runs, we find that an open-weight LLM can closely match expert judgments. Finally, we apply the method to label the 350K entities, producing a structured resource for downstream studies of social integration and related outcomes.
- Abstract(参考訳): デジタル化された歴史文書は、日々の社会生活を大規模に研究することができるが、テキストから直接抽出された情報は、歴史家や社会学者が量的な方法で求める研究の質問に答えることができないことが多い。
我々は、フィンランド第2次世界大戦中のカレリア難民家族インタビューの大規模なコレクションでこの問題に対処する。
このインタビューから350万件以上のレジャータイムアクティビティと組織メンバーの言及を抽出し、71万件のユニークな活動と組織名を生み出した。
参加の鍵となる側面(活動や組織の種類,社会的な状況,頻繁な状況,物理的に要求される状況など)を捉えた分類フレームワークを開発します。
我々は、信頼性の高い評価を可能にするためのゴールドスタンダードセットに注釈を付け、それから大規模言語モデルで同じスキーマを大規模に適用できるかどうかをテストする。
複数のモデル実行にまたがる単純な投票手法を用いることで、オープンウェイト LLM が専門家の判断と密接に一致していることが分かる。
最後に、350Kエンティティのラベル付けにこの手法を適用し、社会統合と関連する結果の下流研究のための構造化資源を作成する。
関連論文リスト
- Grok in the Wild: Characterizing the Roles and Uses of Large Language Models on Social Media [5.844783557050257]
xAIの大規模言語モデルであるGrokは、ソーシャルメディアプラットフォームXで毎週何百万人もの人々に呼ばれている。
プラットフォームレベルでは、Grokが62%のリクエストに応答し、大多数(51%)が英語であり、エンゲージメントが低いことが分かりました。
また、LLMが社会的相互作用を媒介する10の役割の分類を誘導的に構築し、これらの役割を用いてGrok on Xの41,735の相互作用を分析する。
論文 参考訳(メタデータ) (2026-02-11T19:06:22Z) - PBBQ: A Persian Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [0.3518016233072557]
ペルシャ語モデルにおける社会的バイアスを評価するために設計されたベンチマークデータセットであるPSBQを紹介する。
PBBQデータセットには、慎重にキュレートされた質問が37,000以上含まれている。
以上の結果から,現在のLLMはペルシャ文化全体において有意な社会的偏見を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-10-22T14:12:00Z) - Measuring Scalar Constructs in Social Science with LLMs [48.92998035333579]
大規模言語モデルにおけるスカラー構造の測定手法の評価を行った。
LLMにスコアを直接出力させるよりも、ペアワイズ比較の方が優れた測定結果が得られることが分かりました。
訓練ペアを1,000個も持たない小型モデルは、誘導LDMの性能にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-09-03T08:19:13Z) - Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish? [0.0]
LIWCやPatternといった従来のレキシコンベースのツールは、長い間この領域の基本的な道具として機能してきた。
オランダ語話者102名を対象に,まず約25,000件のテキスト応答について検討した。
オランダ固有の3つのLLMの性能評価を行い, LIWCとPatternで生成した値と比較した。
本研究は,自然言語使用の複雑さを包括的に扱える,文化的・言語学的にカスタマイズされたモデル・ツールの開発に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-06-04T16:31:37Z) - How Social is It? A Benchmark for LLMs' Capabilities in Multi-user Multi-turn Social Agent Tasks [6.487500253901779]
大規模言語モデル(LLM)は、マルチユーザ、マルチターンソーシャルエージェントタスクにおいて役割を果たす。
我々は LLM の社会的能力を評価するために, 新たなベンチマーク "How Social Is It" (以下 HSII と呼ぶ) を提案する。
HSIIは、フォーマット解析、ターゲット選択、ターゲット切替会話、安定した会話の4段階から構成され、LLMのコミュニケーションとタスク完了能力を総合的に評価する。
論文 参考訳(メタデータ) (2025-04-04T08:59:01Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。