Fugu-MT 論文翻訳(概要): No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus

論文の概要: No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus

arxiv url: http://arxiv.org/abs/2604.16275v1
Date: Fri, 17 Apr 2026 17:33:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:20.031345
Title: No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus
Title（参考訳）: 普遍的不合理性:PLUMコーパスを用いたLLMに対する多言語多言語的ポリテネス効果の多モデル研究
Authors: Hitesh Mehta, Arjit Saxena, Garima Chhikara, Rohit Kumar,
Abstract要約: Brown と Levinson によるポリテネス理論と Culpeper による Impoliteness Framework は、3つの言語にわたる実験の基礎を形成する。サンプルは22,500対のプロンプトと様々な種類の反応からなり,5段階の丁寧さで評価された。その結果, モデル性能は, トーン, 対話履歴, 言語の影響を強く受けていることがわかった。
参考スコア（独自算出の注目度）: 1.263738813992273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the response of Large Language Models (LLMs) to user prompts with different degrees of politeness and impoliteness. The Politeness Theory by Brown and Levinson and the Impoliteness Framework by Culpeper form the basis of experiments conducted across three languages (English, Hindi, Spanish), five models (Gemini-Pro, GPT-4o Mini, Claude 3.7 Sonnet, DeepSeek-Chat, and Llama 3), and three interaction histories between users (raw, polite, and impolite). Our sample consists of 22,500 pairs of prompts and responses of various types, evaluated across five levels of politeness using an eight-factor assessment framework: coherence, clarity, depth, responsiveness, context retention, toxicity, conciseness, and readability. The findings show that model performance is highly influenced by tone, dialogue history, and language. While polite prompts enhance the average response quality by up to ~11% and impolite tones worsen it, these effects are neither consistent nor universal across languages and models. English is best served by courteous or direct tones, Hindi by deferential and indirect tones, and Spanish by assertive tones. Among the models, Llama is the most tone-sensitive (11.5% range), whereas GPT is more robust to adversarial tone. These results indicate that politeness is a quantifiable computational variable that affects LLM behaviour, though its impact is language- and model-dependent rather than universal. To support reproducibility and future work, we additionally release PLUM (Politeness Levels in Utterances, Multilingual), a publicly available corpus of 1,500 human-validated prompts across three languages and five politeness categories, and provide a formal supplementary analysis of six falsifiable hypotheses derived from politeness theory, empirically assessed against the dataset.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) のユーザプロンプトに対する応答について検討する。 Brown and LevinsonによるPolitness TheoryとCulpeperによるImpoliteness Frameworkは、3つの言語(英語、ヒンディー語、スペイン語)、5つのモデル(Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat、Llama 3)、ユーザ間のインタラクション履歴(raw、polite、 impolite)の3つの実験の基礎を形成する。サンプルは,コヒーレンス,明度,深度,応答性,文脈保持性,毒性,簡潔性,可読性という8要素評価フレームワークを用いて,多種多種多様性のプロンプトと応答の22,500対からなる。その結果, モデル性能は, トーン, 対話履歴, 言語の影響を強く受けていることがわかった。丁寧なプロンプトは平均応答品質を最大11%向上させ、音色を悪くするが、これらの効果は言語やモデル間で一貫性がなく普遍的でもない。英語は礼儀正しく直接の音、ヒンディー語は指示音、間接音、スペイン語は断定音である。モデルの中では、Llamaは最もトーンに敏感な(11.5%の範囲)であるが、GPTは逆向きのトーンに対してより堅牢である。これらの結果から,ポリテキシティはLLMの挙動に影響を与える定量的な計算変数であることが示唆された。再現性と今後の作業を支援するため,3つの言語と5つの多義性カテゴリにまたがる1500の有能なプロンプトの公開コーパスであるPLUM(Politeness Levels in Utterances, Multilingual)もリリースした。

関連論文リスト

Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs [1.7778609937758327]
大規模言語モデル(LLM)は、幅広いタスクで高いパフォーマンスを達成しているが、梅毒の傾向もある。以前の研究は、ChatGPT-3.5やDavinciといった初期のモデルにおいて、梅毒の程度と根本原因の両方を概説している。本研究は、この言語が梅毒の反応にどのように影響するかを考察する。
論文参考訳（メタデータ） (2026-03-29T12:31:05Z)
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文参考訳（メタデータ） (2025-11-05T22:09:53Z)
Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper) [0.0]
本研究は,複数質問に対するモデル精度に与える影響について検討した。数学、科学、歴史にまたがる50の基本的な質問のデータセットを作成し、それぞれが5つの音調の変種(Very Polite, Polite, Neutral, Rude, Very Rude)に書き換えました。予想とは対照的に、イノライトのプロンプトは多孔質のプロンプトよりも一貫して優れており、精度は80.8%、Very Rudeプロンプトは84.8%である。
論文参考訳（メタデータ） (2025-10-06T15:50:39Z)
CAPE: Context-Aware Personality Evaluation Framework for Large Language Models [8.618075786777219]
大規模言語モデル(LLM)のためのコンテキスト認識型パーソナリティ評価フレームワークを提案する。実験の結果,会話履歴は文脈内学習による応答の整合性を高めるだけでなく,人格の変化も引き起こすことがわかった。我々のフレームワークは、人間による判断をより良く整合させるために、ロールプレイングエージェント(RPAs)に適用できる。
論文参考訳（メタデータ） (2025-08-28T03:17:47Z)
Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。文脈特性が人間の信頼行動に大きく影響していることが判明した。これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:00:05Z)
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT) モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文参考訳（メタデータ） (2023-12-23T18:14:56Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
TyDiP: A Dataset for Politeness Classification in Nine Typologically Diverse Languages [33.540256516320326]
類型的多様言語9言語における丁寧さ現象について検討する。それぞれの言語で500の例に対して3方向の丁寧なアノテーションを含むデータセットであるTyDiPを作成します。
論文参考訳（メタデータ） (2022-11-29T18:58:15Z)
On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文参考訳（メタデータ） (2020-10-06T20:48:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。