論文の概要: Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction
- arxiv url: http://arxiv.org/abs/2602.22752v1
- Date: Thu, 26 Feb 2026 08:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.601826
- Title: Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction
- Title(参考訳): LLMを用いたソーシャルメディア利用者のシミュレーション : 条件付きコメント予測の操作妥当性の評価
- Authors: Nils Schwager, Simon Münker, Alistair Plum, Achim Rettinger,
- Abstract要約: 本研究は,ユーザが所定の刺激に対してどのようにコメントするかをモデルが予測するタスクである条件付きコメント予測(CCP)を紹介する。
オープンウェイトな8Bモデル(Llama3.1、Qwen3、Ministral)を英語、ドイツ語、ルクセンブルク語のシナリオで評価する。
- 参考スコア(独自算出の注目度): 2.5450067638785945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.
- Abstract(参考訳): 社会科学における大規模言語モデル(LLM)の探索ツールから活発な「シリコン科目」への移行は、運用の有効性の広範な検証を欠いている。
本研究では,生成した出力を真のデジタルトレースと比較することにより,ユーザが所定の刺激に対してどのようにコメントするかをモデルが予測するタスクである条件付きコメント予測(CCP)を紹介する。
本フレームワークは,ソーシャルメディア利用者の行動シミュレーションに関して,現在のLCM能力の厳密な評価を可能にする。
オープンウェイト8Bモデル(Llama3.1,Qwen3,Ministral)を英語,ドイツ語,ルクセンブルク語のシナリオで評価した。
プロンプト戦略(明示的対暗黙的)とスーパーバイザード・ファイン・チューニング(SFT)の影響を体系的に比較することにより、低リソース環境でのコンテンツデカップリングとクリティカルフォームを識別する: SFTはテキスト出力(長さと構文)の表面構造を整列するが、セマンティックグラウンドディングは劣化する。
さらに、モデルが行動履歴から直接潜伏推論を行うのに成功し、明示的な条件付け(生成バイオグラフィー)が微調整で冗長になることを示す。
本研究は, 現状の「ナイーブプロンプト」パラダイムに挑戦し, 高忠実度シミュレーションのために, 記述的ペルソナよりも真正な行動トレースを優先する運用ガイドラインを提供する。
関連論文リスト
- Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations [1.8772057593980798]
大規模言語モデル(LLM)は、言語化された自己説明を生成することができる。
我々は,人間とLLMの審査員が,偽のフォローアップ質問に対するモデルの回答をどの程度予測できるかを評価する。
論文 参考訳(メタデータ) (2026-01-07T10:13:26Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - When Meaning Stays the Same, but Models Drift: Evaluating Quality of Service under Token-Level Behavioral Instability in LLMs [4.265831047857601]
本研究では,大規模言語モデルがトークンレベルでの認識のみが異なるが,同じ意味的意図を保持するプロンプトにどのように反応するかを検討する。
本稿では,意味論的に等価なプロンプトリワードの下でのLCMの挙動ドリフトを測定するための診断フレームワークであるPmpt-based Semantic Shift (PBSS)を提案する。
論文 参考訳(メタデータ) (2025-06-11T18:26:32Z) - Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models [27.313165173789233]
大規模言語モデルは、社会力学をシミュレートする古典的エージェントベースモデル(ABM)の強力な代替物として提案されている。
しかし、LLMのブラックボックスの性質から、LLMエージェントが実際に意図した意味論を実行するかどうかは不明である。
目的とする力学を近似するプロンプトを設計することは可能であるが、これらのシミュレーションの品質はプロンプトの特定の選択に非常に敏感である。
論文 参考訳(メタデータ) (2024-12-06T14:50:01Z) - Designing Domain-Specific Large Language Models: The Critical Role of Fine-Tuning in Public Opinion Simulation [0.0]
本稿では,英国家庭縦断研究の社会デマトグラフィーデータを統合した,新しい微調整手法を提案する。
多様な合成プロファイルをエミュレートすることで、微調整されたモデルは、事前訓練されたモデルよりも大幅に優れている。
より広範な意味は、医療や教育などの分野にLLMをデプロイすること、包括的でデータ駆動型意思決定を促進することである。
論文 参考訳(メタデータ) (2024-09-28T10:39:23Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。