論文の概要: Using LLMs to create analytical datasets: A case study of reconstructing the historical memory of Colombia
- arxiv url: http://arxiv.org/abs/2509.04523v1
- Date: Wed, 03 Sep 2025 14:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.356023
- Title: Using LLMs to create analytical datasets: A case study of reconstructing the historical memory of Colombia
- Title(参考訳): LLMを用いた分析データセットの作成:コロンビアの歴史記憶の再構築を事例として
- Authors: David Anderson, Galia Benitez, Margret Bjarnadottir, Shriyan Reyya,
- Abstract要約: 本研究は,大規模言語モデル(LLM)であるGPTを活用することでコロンビアの歴史的記憶に寄与する。
得られたデータセットを用いて、記述的分析と、暴力とコカ作物の根絶との関係についての研究を行う。
- 参考スコア(独自算出の注目度): 0.6673086216831831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Colombia has been submerged in decades of armed conflict, yet until recently, the systematic documentation of violence was not a priority for the Colombian government. This has resulted in a lack of publicly available conflict information and, consequently, a lack of historical accounts. This study contributes to Colombia's historical memory by utilizing GPT, a large language model (LLM), to read and answer questions about over 200,000 violence-related newspaper articles in Spanish. We use the resulting dataset to conduct both descriptive analysis and a study of the relationship between violence and the eradication of coca crops, offering an example of policy analyses that such data can support. Our study demonstrates how LLMs have opened new research opportunities by enabling examinations of large text corpora at a previously infeasible depth.
- Abstract(参考訳): コロンビアは何十年にもわたって武力紛争に巻き込まれてきたが、最近まで、暴力の体系的な文書はコロンビア政府にとって優先事項ではなかった。
この結果、公に入手可能な紛争情報が欠落し、その結果、歴史的な記録が欠落した。
本研究は,大規模言語モデル(LLM)であるGPTを用いて,20万件以上の暴力関連新聞記事をスペイン語で読み解き,回答することで,コロンビアの歴史的記憶に寄与する。
得られたデータセットを用いて、記述的分析と、暴力とコカ作物の根絶との関係についての研究を行い、そのようなデータを支援できる政策分析の例を示す。
本研究は, LLMが従来不可能であった大文字コーパスの検査を可能にすることによって, 新たな研究機会を開拓したことを示すものである。
関連論文リスト
- Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Automating Violence Detection and Categorization from Ancient Texts [0.0]
文学における暴力の記述は、人文科学の幅広い研究に貴重な洞察を与える。
歴史家にとって、暴力の描写は、大きな戦争と影響力のある人々の個人的紛争を取り巻く社会的ダイナミクスを分析するための特別な関心事である。
この研究は、古代のテキストにおける暴力を識別し、複数の次元にまたがる分類において、大規模言語モデル(LLM)の有効性を評価する最初のものである。
論文 参考訳(メタデータ) (2025-03-11T08:55:52Z) - A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-31T12:44:48Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Into the crossfire: evaluating the use of a language model to crowdsource gun violence reports [6.655191845270443]
我々は、通常のポルトガル語のテキストと銃暴力の報告を区別するために、Twitterテキストで訓練された細調整BERTベースのモデルを提案する。
我々は、新たな銃暴力イベントを特定するために、ソーシャルメディアのテキストを継続的にチェックするブラジルのアナリストを調査、インタビューする。
論文 参考訳(メタデータ) (2024-01-16T14:40:54Z) - Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case
Study using Latent Dirichlet Allocation Method [8.405827390095064]
トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究分野からのものである。
本研究では,LDA(Latent Dirichlet Allocation)法を用いて,コロナウイルスに関するスウェーデンの新聞記事の話題変化をモデル化する。
我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間のトピック変更に関する6515の論文,適用方法,統計データを含むコーパスについて述べる。
論文 参考訳(メタデータ) (2023-01-08T12:33:58Z) - Big Data Analytics in Humanitarian and Disaster Operations: A Systematic
Review [0.0]
このレビューは、人道的・災害的な環境でのビッグデータ分析の全体的理解を提供することを目的としている。
本研究は,災害期における研究の不均衡を顕著に示し,レスポンシブ対策に重点が置かれていることを明らかにする。
全体として、この研究は人道的および災害環境でのビッグデータ分析の現状について詳述している。
論文 参考訳(メタデータ) (2021-08-22T17:52:13Z) - Automatic Monitoring Social Dynamics During Big Incidences: A Case Study
of COVID-19 in Bangladesh [0.26651200086513094]
本研究は、co-19パンデミックに関連するバングラデシュの新聞データを分析した。
この分析は、政府や他の組織がこのパンデミックによって社会で発生した課題を理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-01-24T07:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。