論文の概要: Using Text-Based Life Trajectories from Swedish Register Data to Predict Residential Mobility with Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2512.07865v1
- Date: Wed, 26 Nov 2025 15:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.527833
- Title: Using Text-Based Life Trajectories from Swedish Register Data to Predict Residential Mobility with Pretrained Transformers
- Title(参考訳): スウェーデンの登録データからのテキストベースライフトラジェクトリを用いた事前学習型トランスフォーマーによる住宅移動量の予測
- Authors: Philipp Stark, Alexandros Sopasakis, Ola Hall, Markus Grillitsch,
- Abstract要約: 我々は690万人からのデータ(2001-2013)を意味的にリッチなテキストに変換する。
これらのライフトラジェクトリーは、人口統計情報と、住居、仕事、教育、収入、家族の状況の年次変化を結びつけている。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We transform large-scale Swedish register data into textual life trajectories to address two long-standing challenges in data analysis: high cardinality of categorical variables and inconsistencies in coding schemes over time. Leveraging this uniquely comprehensive population register, we convert register data from 6.9 million individuals (2001-2013) into semantically rich texts and predict individuals' residential mobility in later years (2013-2017). These life trajectories combine demographic information with annual changes in residence, work, education, income, and family circumstances, allowing us to assess how effectively such sequences support longitudinal prediction. We compare multiple NLP architectures (including LSTM, DistilBERT, BERT, and Qwen) and find that sequential and transformer-based models capture temporal and semantic structure more effectively than baseline models. The results show that textualized register data preserves meaningful information about individual pathways and supports complex, scalable modeling. Because few countries maintain longitudinal microdata with comparable coverage and precision, this dataset enables analyses and methodological tests that would be difficult or impossible elsewhere, offering a rigorous testbed for developing and evaluating new sequence-modeling approaches. Overall, our findings demonstrate that combining semantically rich register data with modern language models can substantially advance longitudinal analysis in social sciences.
- Abstract(参考訳): 我々は,スウェーデンの大規模レジスタデータをテキストライフトラジェクトリに変換し,データ解析における長年の課題に対処する。
このユニークな包括的人口登録を活用して、690万人の個人(2001-2013)の登録データを意味的に豊かなテキストに変換し、その後の(2013-2017)個人の住宅移動を予測する。
これらのライフトラジェクトリは、人口統計情報と、住居、仕事、教育、収入、家族の状況の年次変化を組み合わせることで、このようなシーケンスがいかに効果的に長手予測をサポートするかを評価することができる。
複数のNLPアーキテクチャ(LSTM, DistilBERT, BERT, Qwenなど)を比較し,シーケンシャルおよびトランスフォーマーベースのモデルが,ベースラインモデルよりも時間的および意味的構造を効果的に捉えることを発見した。
その結果、テキスト化されたレジスタデータは、個々の経路に関する意味のある情報を保存し、複雑でスケーラブルなモデリングをサポートすることがわかった。
そのため、このデータセットは、他の場所では困難または不可能な分析や方法論的なテストを可能にし、新しいシーケンスモデリングアプローチの開発と評価のための厳密なテストベッドを提供する。
概して,現代言語モデルと意味豊かなレジスタデータを組み合わせることで,社会科学における経時的分析を大幅に前進させることができることが示唆された。
関連論文リスト
- Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading [3.7723788828505125]
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。
この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
論文 参考訳(メタデータ) (2025-08-19T05:45:02Z) - Personality Prediction from Life Stories using Language Models [12.851871085845499]
本研究では,5要素モデル(FFM)の性格特性を予測するために,2000トークンを超える長話インタビューをモデル化することの課題に対処する。
まず,事前学習した言語モデルのスライディング・ウインドウ・ファインタニングを用いてコンテキスト埋め込みを抽出し,長期依存性を統合し,解釈可能性を高めるための注意機構を備えたリカレントニューラルネットワーク(RNN)を適用する。
論文 参考訳(メタデータ) (2025-06-24T02:39:06Z) - Leveraging Multivariate Long-Term History Representation for Time Series Forecasting [6.661358934189792]
MTS予測のためのLMHR(Long-term Multivariate Representation)というフレームワークを提案する。
LMHRは、長期の歴史をセグメントレベルの文脈表現にエンコードし、ポイントレベルのノイズを低減する。
急速に変化するパターンのトップ10%で予測精度を9.8%向上させる。
論文 参考訳(メタデータ) (2025-05-20T03:46:36Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - Longitudinal Variational Autoencoder [1.4680035572775534]
不足値を含む高次元データを解析するための一般的なアプローチは、変分オートエンコーダ(VAE)を用いた低次元表現を学習することである。
標準的なVAEは、学習した表現はi.d.であり、データサンプル間の相関を捉えることができないと仮定する。
本稿では,多出力加法的ガウス過程(GP)を用いて,構造化された低次元表現を学習するVAEの能力を拡張した縦型VAE(L-VAE)を提案する。
我々の手法は時間変化の共有効果とランダム効果の両方に同時に対応でき、構造化された低次元表現を生成する。
論文 参考訳(メタデータ) (2020-06-17T10:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。