論文の概要: Email in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2603.20231v1
- Date: Fri, 06 Mar 2026 19:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.919153
- Title: Email in the Era of LLMs
- Title(参考訳): LLM時代のメール
- Authors: Dang Nguyen, Harvey Yiyun Fu, Peter West, Chenhao Tan, Ari Holtzman,
- Abstract要約: メール通信は、ますます大きな言語モデル(LLM)を伴います。
HR Simulatorは、プレイヤーがヒューマンリソースのオフィサーとしてプレーし、社会的に困難な職場シナリオを解決するために電子メールを書くゲームである。
LLMs-as-judgeによる600以上の人的およびLLMメールの分析は、より大きなLLMがメールの品質判断においてより均質になる証拠を明らかにしている。
- 参考スコア(独自算出の注目度): 30.377594388420576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Email communication increasingly involves large language models (LLMs), but we lack intuition on how they will read, write, and optimize for nuanced social goals. We introduce HR Simulator, a game where communication is the core mechanic: players play as a Human Resources officer and write emails to solve socially challenging workplace scenarios. An analysis of 600+ human and LLM emails with LLMs-as-judge reveals evidence for larger LLMs becoming more homogenous in their email quality judgments. Under LLM judges, humans underperform LLMs (e.g., 23.5% vs. 48-54% success rate), but a human+LLM approach can outperform LLM-only (e.g., from 40% to nearly 100% in one scenario). In cases where models' email preferences disagree, emergent tact is a plausible explanation: weaker models prefer less tactful strategies while stronger models prefer more tactful ones. Regarding tone, LLM emails are more formal and empathetic while human emails are more varied. LLM rewrites make human emails more formal and empathetic, but models still struggle to imitate human emails in the low empathy, low formality quadrant, which highlights a limitation of current post-training approaches. Our results demonstrate the efficacy of communication games as instruments to measure communication in the era of LLMs, and posit human-LLM co-writing as an effective form of communication in that future.
- Abstract(参考訳): メール通信は、ますます大きな言語モデル(LLM)を伴いますが、彼らの読み方、書き方、微妙な社会的目標への最適化に関する直感は欠如しています。
我々は人事シミュレーション(HR Simulator)という,コミュニケーションがコアメカニックであるゲームを紹介した。プレイヤーはヒューマンリソースのオフィサーとしてプレーし,社会的に困難な職場シナリオを解決するためにメールを書く。
LLMs-as-judgeによる600以上の人的メールとLLMメールの分析は、より大きなLLMがメールの品質判断においてより均質になる証拠を明らかにしている。
LLMの判断では、人間はLSM(例: 23.5% 対 48-54% の成功率)を過小評価しているが、人間+LLM のアプローチは LLM のみ(例: 40% から 100% 近く)より優れている。
弱いモデルはより現実的な戦略を好むが、強いモデルはより現実的な戦略を好む。
トーンに関しては、LLMメールはよりフォーマルで共感的であり、人間のメールはより多様である。
LLMの書き直しは、人間のメールをより形式的で共感的なものにしますが、モデルでは、現在のトレーニング後のアプローチの制限を浮き彫りにした、低い共感と低いフォーマルさの4分の1で、人間のメールを模倣することに苦慮しています。
本稿は,LLM時代のコミュニケーションを計測する手段としてのコミュニケーションゲームの有効性を実証し,将来におけるコミュニケーションの効果的な形態として人間とLLMのコライティングを実証するものである。
関連論文リスト
- Large Language Models are overconfident and amplify human bias [1.014221700787766]
我々は,大規模言語モデル(LLM)が最も広く普及している人間のバイアスの1つ、過信を継承するかどうかを評価する。
私たちが研究している5つのLCMは、すべて過信であり、答えが20%から60%の間正しい確率を過信しています。
人間はより高度なLSMと同様の精度を持つが、過信ははるかに低い。
論文 参考訳(メタデータ) (2025-05-04T15:21:34Z) - Shaping Shared Languages: Human and Large Language Models' Inductive Biases in Emergent Communication [0.09999629695552195]
ヒトと大言語モデル(LLM)の帰納バイアスに最適化された人工言語がどのように進化するかを検討する。
我々は、人間が協力しても、あらゆる状況において信頼できるコミュニケーションを可能にする、参照接頭辞が出現することを示します。
論文 参考訳(メタデータ) (2025-03-06T12:47:54Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。