論文の概要: Fine-grained Classification of A Million Life Trajectories from Wikipedia
- arxiv url: http://arxiv.org/abs/2602.04503v1
- Date: Wed, 04 Feb 2026 12:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.525662
- Title: Fine-grained Classification of A Million Life Trajectories from Wikipedia
- Title(参考訳): ウィキペディアから100万の生命軌道のきめ細かい分類
- Authors: Zhaoyang Liu, Xiaocong Du, Yixi Zhou, Ye Shi, Haipeng Zhang,
- Abstract要約: 生活活動を分類するために、ウィキペディアから(テキスト、時間、場所)トリプルを抽出するツールを使用します。
我々は3世紀にわたって589,193人の個人に対して380万のラベル付き活動を行う、最も微細な生命軌道データセットを構築した。
- 参考スコア(独自算出の注目度): 17.326892583939696
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Life trajectories of notable people convey essential messages for human dynamics research. These trajectories consist of (\textit{person, time, location, activity type}) tuples recording when and where a person was born, went to school, started a job, or fought in a war. However, current studies only cover limited activity types such as births and deaths, lacking large-scale fine-grained trajectories. Using a tool that extracts (\textit{person, time, location}) triples from Wikipedia, we formulate the problem of classifying these triples into 24 carefully-defined types using textual context as complementary information. The challenge is that triple entities are often scattered in noisy contexts. We use syntactic graphs to bring triple entities and relevant information closer, fusing them with text embeddings to classify life trajectory activities. Since Wikipedia text quality varies, we use LLMs to refine the text for more standardized syntactic graphs. Our framework achieves 84.5\% accuracy, surpassing baselines. We construct the largest fine-grained life trajectory dataset with 3.8 million labeled activities for 589,193 individuals spanning 3 centuries. In the end, we showcase how these trajectories can support grand narratives of human dynamics across time and space. Code/data are publicly available.
- Abstract(参考訳): 著名な人々の人生の軌跡は、人間の力学研究に欠かせないメッセージを伝える。
これらの軌道は (\textit{person, time, location, activity type}) タプルからなり、ある人がいつ、どこで生まれたかを記録し、学校に行き、仕事を始めたり、戦争で戦ったりした。
しかし、現在の研究では、出生や死亡などの限られた活動タイプのみをカバーしており、大規模な微粒な軌跡が欠如している。
ウィキペディアから(\textit{person, time, location})トリプルを抽出するツールを用いて、テキストコンテキストを補完情報として使用して、これらトリプルを24の慎重に定義された型に分類する問題を定式化する。
課題は、三重実体がしばしばノイズの多い文脈に散らばっていることである。
我々は3つの実体と関連する情報をより近づけるために構文グラフを使用し、生命軌道のアクティビティを分類するためにテキスト埋め込みと融合する。
ウィキペディアのテキストの品質は様々であるため、より標準化された構文グラフのためにLLMを使用してテキストを洗練します。
我々のフレームワークは84.5\%の精度でベースラインを超えています。
我々は3世紀にわたって589,193人の個人に対して380万のラベル付き活動を行う、最も微細な生命軌道データセットを構築した。
最後に、これらの軌道が時間と空間をまたいだ人間の力学の壮大な物語をどのようにサポートするかを紹介する。
コード/データは公開されている。
関連論文リスト
- TransNet: Transfer Knowledge for Few-shot Knowledge Graph Completion [69.6049217133483]
転送学習に基づく数ショットKG補完法(TransNet)を提案する。
異なるタスク間の関係を学習することにより、TransNetは、現在のタスクのパフォーマンスを改善するために、類似タスクからの知識を効果的に転送する。
論文 参考訳(メタデータ) (2025-03-29T23:39:11Z) - Paths of A Million People: Extracting Life Trajectories from Wikipedia [20.02210503453678]
軌道記述の多様性と不均一性から生じる一般化問題に取り組む。
半教師付き学習とコントラスト学習を組み合わせた組立モデルCOSMOSは,F1スコア85.95%を達成している。
我々はまた、8,852(人、時間、場所)のトリプルからなる手作業によるデータセットWikiLifeTrajectoryを作成しました。
論文 参考訳(メタデータ) (2024-05-25T06:57:33Z) - SemGrasp: Semantic Grasp Generation via Language Aligned Discretization [53.43801984965309]
本稿では,SemGraspと呼ばれるセマンティックなグリップ生成手法を提案する。
そこで本研究では,握り空間を意味空間に整合させる離散表現を導入し,握り姿勢の生成を可能にする。
その後、MLLM(Multimodal Large Language Model)が微調整され、オブジェクト、把握、言語を統一意味空間内で統合する。
論文 参考訳(メタデータ) (2024-04-04T16:58:26Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Telling Stories for Common Sense Zero-Shot Action Recognition [11.166901260737786]
本稿では,WikiHowの記事から抽出した多様なアクションクラスに対するリッチなテキスト記述を含む,新しいデータセットであるStoriesを紹介する。
各クラスに対して、アクションを特徴付けるために必要なステップ、シーン、オブジェクト、動詞を詳述した多文の物語を抽出する。
このコンテキストデータは、アクション間のニュアンス付き関係のモデリングを可能にし、ゼロショット転送への道を開く。
論文 参考訳(メタデータ) (2023-09-29T15:34:39Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation [39.918783911894245]
キャプション内の言語構造がシーングラフ生成にどのように役立つかを示す。
提案手法は, 個々の三重項間の関係や, 対象物や対象物の文脈について, キャプションに記載した情報をキャプチャする。
Web上の多モーダルデータの大規模かつ多様なソースを考えると、言語的監督はクラウドソーシングされた三つ子よりもスケーラブルである。
論文 参考訳(メタデータ) (2021-05-28T17:20:27Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。