論文の概要: Next Reply Prediction X Dataset: Linguistic Discrepancies in Naively Generated Content
- arxiv url: http://arxiv.org/abs/2602.19177v1
- Date: Sun, 22 Feb 2026 13:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.518121
- Title: Next Reply Prediction X Dataset: Linguistic Discrepancies in Naively Generated Content
- Title(参考訳): Next Reply Prediction X Dataset: Naively Generated Contentにおける言語的差異
- Authors: Simon Münker, Nils Schwager, Kai Kugler, Michael Heseltine, Achim Rettinger,
- Abstract要約: 社会科学研究における人間のプロキシとしてのLarge Language Models (LLMs) は、有望だが方法論的に危険なパラダイムシフトを示している。
本稿では,X(旧Twitter)データに新しい履歴条件の応答予測タスクを導入することで,これらの制約に対処する。
我々はこれらの相違点をスタイリスティックおよびコンテンツベースメトリクスを用いて分析し、研究者が合成データの質と信頼性を評価するための定量的な枠組みを提供する。
- 参考スコア(独自算出の注目度): 1.215922138351105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of Large Language Models (LLMs) as proxies for human participants in social science research presents a promising, yet methodologically risky, paradigm shift. While LLMs offer scalability and cost-efficiency, their "naive" application, where they are prompted to generate content without explicit behavioral constraints, introduces significant linguistic discrepancies that challenge the validity of research findings. This paper addresses these limitations by introducing a novel, history-conditioned reply prediction task on authentic X (formerly Twitter) data, to create a dataset designed to evaluate the linguistic output of LLMs against human-generated content. We analyze these discrepancies using stylistic and content-based metrics, providing a quantitative framework for researchers to assess the quality and authenticity of synthetic data. Our findings highlight the need for more sophisticated prompting techniques and specialized datasets to ensure that LLM-generated content accurately reflects the complex linguistic patterns of human communication, thereby improving the validity of computational social science studies.
- Abstract(参考訳): 社会科学研究における人間のプロキシとしてのLarge Language Models(LLMs)の利用の増加は、有望だが方法論的に危険なパラダイムシフトを示している。
LLMはスケーラビリティと費用対効果を提供するが、その"単純"なアプリケーションでは、明確な振る舞いの制約なしにコンテンツを生成するように促され、研究結果の妥当性に挑戦する重要な言語的相違が生じている。
本稿では,人間生成コンテンツに対するLLMの言語的出力を評価するためのデータセットを作成するために,信頼度X(旧Twitter)データに履歴条件付き応答予測タスクを導入することで,これらの制約に対処する。
我々はこれらの相違点をスタイリスティックおよびコンテンツベースメトリクスを用いて分析し、研究者が合成データの質と信頼性を評価するための定量的な枠組みを提供する。
LLM生成コンテンツが人間のコミュニケーションの複雑な言語パターンを正確に反映し、計算社会科学研究の妥当性を向上させるために、より洗練されたプロンプト技術や特別なデータセットの必要性を強調した。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Privacy-Preserving Synthetic Review Generation with Diverse Writing Styles Using LLMs [6.719863580831653]
LLM(Large Language Models)によって生成された合成データは、モデルトレーニングを容易にするために、実世界のデータに代わる費用効率が高くスケーラブルな代替手段を提供する。
我々は,複数の最先端LCMから生成される合成データセットの多様性(言語表現,感情,ユーザ視点)を定量的に評価する。
評価結果を参考に,レビュアーのプライバシを保ちつつ,合成レビューの多様性を高めるために,プロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-24T03:12:16Z) - Synthetic Data Generation for Phrase Break Prediction with Large Language Model [5.483546934298434]
大規模言語モデル(LLM)は、NLPにおけるデータ課題への対処に成功している。
合成フレーズブレークアノテーションの生成にLLMを活用する方法について検討する。
この結果から,LLMに基づく合成データ生成は,フレーズブレーク予測におけるデータ課題を効果的に軽減することが示唆された。
論文 参考訳(メタデータ) (2025-07-24T02:45:03Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Had enough of experts? Quantitative knowledge retrieval from large language models [4.091195951668217]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
我々は、専門家のような事前知識を抽出し、欠落したデータを出力することで、LLMを活用してベイズモデルを強化するフレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。