論文の概要: Do LLMs Understand Why We Write Diaries? A Method for Purpose Extraction and Clustering
- arxiv url: http://arxiv.org/abs/2506.00985v1
- Date: Sun, 01 Jun 2025 12:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.698075
- Title: Do LLMs Understand Why We Write Diaries? A Method for Purpose Extraction and Clustering
- Title(参考訳): LLMはなぜ日記を書くのか? : 目的抽出とクラスタリングのための方法
- Authors: Valeriya Goloviznina, Alexander Sergeev, Mikhail Melnichenko, Evgeny Kotelnikov,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に基づく,日記作成のさまざまな目的を識別・クラスタリングするための新しい手法を提案する。
本手法はソ連時代の日記(1922-1929)において,Prozhitoデジタルアーカイブから適用した。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diary analysis presents challenges, particularly in extracting meaningful information from large corpora, where traditional methods often fail to deliver satisfactory results. This study introduces a novel method based on Large Language Models (LLMs) to identify and cluster the various purposes of diary writing. By "purposes," we refer to the intentions behind diary writing, such as documenting life events, self-reflection, or practicing language skills. Our approach is applied to Soviet-era diaries (1922-1929) from the Prozhito digital archive, a rich collection of personal narratives. We evaluate different proprietary and open-source LLMs, finding that GPT-4o and o1-mini achieve the best performance, while a template-based baseline is significantly less effective. Additionally, we analyze the retrieved purposes based on gender, age of the authors, and the year of writing. Furthermore, we examine the types of errors made by the models, providing a deeper understanding of their limitations and potential areas for improvement in future research.
- Abstract(参考訳): ダイアリ分析は、特に大きなコーパスから有意義な情報を抽出する際の課題を示す。
本研究では,大規模言語モデル(LLM)に基づく,日記作成のさまざまな目的を識別・クラスタリングするための新しい手法を提案する。
目的」とは、人生の出来事の文書化、自己反省、言語スキルの実践など、日記作成の背景にある意図を指す。
我々のアプローチは、ソヴィエト時代の日記(1922-1929)に、個人的な物語の豊富なコレクションであるProzhitoデジタルアーカイブに適用される。
GPT-4o と o1-mini は,テンプレートベースのベースラインの効率が著しく低いのに対して,GPT-4o と o1-mini は最高の性能を発揮する。
さらに, 性別, 著者年齢, 執筆年に基づいて, 検索目的の分析を行った。
さらに,モデルによる誤りの種類について検討し,その限界と今後の研究改善の可能性についてより深く理解する。
関連論文リスト
- Tell, Don't Show: Leveraging Language Models' Abstractive Retellings to Model Literary Themes [9.471374217162843]
本稿では,文学のためのシンプルなトピックモデリング手法であるRetellを提案する。
我々は,資源効率のよい生成言語モデル(LM)に,どのパスを示すかを示すよう促す。
論文 参考訳(メタデータ) (2025-05-29T06:59:21Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Personalization of Large Language Models: A Survey [131.00650432814268]
大規模言語モデル(LLM)のパーソナライゼーションは、最近、広範囲のアプリケーションでますます重要になっている。
パーソナライズ LLM に関する既存の研究の多くは、(a)パーソナライズされたテキスト生成、または(b)レコメンデーションシステムのようなパーソナライズに関連する下流アプリケーションに LLM を活用することに集中している。
パーソナライズされたLSM使用のための分類を導入し、主要な違いと課題を要約する。
論文 参考訳(メタデータ) (2024-10-29T04:01:11Z) - Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
記憶化とは、モデルがトレーニングデータからフレーズを保存して再生する傾向をいう。
本稿では, LLM記憶に関する文献を分類し, 粒度, 再現性, 望ましさの3次元にわたって探索する。
我々は、プライバシーとパフォーマンスのバランスをとる方法を含む、近い将来の潜在的研究トピックを特定することで、調査を締めくくっている。
論文 参考訳(メタデータ) (2024-10-03T16:34:46Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Digital Forgetting in Large Language Models: A Survey of Unlearning Methods [3.6070136675401656]
この調査は、大きな言語モデル(LLM)の忘れ方に焦点を当てている。
まず、LLMのコンポーネント、LLMのタイプ、通常のトレーニングパイプラインなど、LLMのバックグラウンドを提供します。
次に,デジタル忘れることの動機,タイプ,望ましい特性について述べる。
第3に,LLMにおけるデジタル忘れへのアプローチを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:01:18Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。