論文の概要: We Politely Insist: Your LLM Must Learn the Persian Art of Taarof
- arxiv url: http://arxiv.org/abs/2509.01035v1
- Date: Mon, 01 Sep 2025 00:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.511388
- Title: We Politely Insist: Your LLM Must Learn the Persian Art of Taarof
- Title(参考訳): LLMはペルシャのタアロフの芸術を学ばなければならない
- Authors: Nikta Gohari Sadr, Sahar Heidariasl, Karine Megerdoomian, Laleh Seyyed-Kalantari, Ali Emami,
- Abstract要約: 大きな言語モデル(LLM)は、文化的に特定のコミュニケーション規範をナビゲートするのに苦労する。
我々は、イランの対話における社会的規範であるペルシャのタアロフに焦点を当て、軽蔑、謙虚、間接性を強調している。
タアロフのLLM理解を評価するための最初のベンチマークであるタアロフベンチを紹介する。
- 参考スコア(独自算出の注目度): 10.335211076109305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) struggle to navigate culturally specific communication norms, limiting their effectiveness in global contexts. We focus on Persian taarof, a social norm in Iranian interactions, which is a sophisticated system of ritual politeness that emphasizes deference, modesty, and indirectness, yet remains absent from existing cultural benchmarks. We introduce TaarofBench, the first benchmark for evaluating LLM understanding of taarof, comprising 450 role-play scenarios covering 12 common social interaction topics, validated by native speakers. Our evaluation of five frontier LLMs reveals substantial gaps in cultural competence, with accuracy rates 40-48% below native speakers when taarof is culturally appropriate. Performance varies between interaction topics, improves with Persian-language prompts, and exhibits gender-based asymmetries. We also show that responses rated "polite" by standard metrics often violate taarof norms, indicating the limitations of Western politeness frameworks. Through supervised fine-tuning and Direct Preference Optimization, we achieve 21.8% and 42.3% improvement in model alignment with cultural expectations. Our human study with 33 participants (11 native Persian, 11 heritage, and 11 non-Iranian speakers) forms baselines in varying degrees of familiarity with Persian norms. This work lays the foundation for developing diverse and culturally aware LLMs, enabling applications that better navigate complex social interactions.
- Abstract(参考訳): 大きな言語モデル(LLM)は、文化的に特定のコミュニケーション規範をナビゲートし、グローバルな文脈での有効性を制限するのに苦労する。
我々は、イランの交流における社会的規範であるペルシャのタアロフに焦点をあてる。これは、軽蔑、謙虚さ、間接性を強調する洗練された儀式の丁寧さの体系であるが、既存の文化的基準からは逸脱している。
そこで本研究では,12の共通ソーシャルインタラクショントピックをカバーする450のロールプレイシナリオをネイティブ話者によって検証した,タアロフのLLM理解評価のための最初のベンチマークであるTaarofBenchを紹介する。
5つのフロンティア LLM の評価は,タアロフが文化的に適切である場合,40~48% の精度で,文化的能力の差が顕著であることを示す。
パフォーマンスは相互作用のトピックによって異なり、ペルシア語のプロンプトで改善され、ジェンダーベースの漸近を示す。
また、標準指標による「政治的」評価の回答が、西洋の丁寧な枠組みの限界を示すタラロフ規範に違反していることも示している。
教師付き微調整と直接選好最適化により,21.8%と42.3%の改善が達成された。
原住民33名(ペルシア人11名、遺産11名、非イラン人11名)による人間による研究は、ペルシャの規範に習熟する度合いの基準となる。
この研究は、多様かつ文化的に認識されたLCMを開発するための基盤を築き、複雑な社会的相互作用をうまくナビゲートするアプリケーションを可能にした。
関連論文リスト
- ALIGN: Word Association Learning for Cross-Cultural Generalization in Large Language Models [0.8999666725996975]
文化的な知識が限られているため、文化をモデル化し、調整することは依然として課題である。
本稿では,母語話者の自由な単語連想規範をパラメータ効率で微調整する手法を提案する。
私たちの研究は、数百万の文化に根ざした協会が、コストのかかる再トレーニングなしに価値アライメントを組み込むことができることを示している。
論文 参考訳(メタデータ) (2025-08-19T00:55:20Z) - MELAC: Massive Evaluation of Large Language Models with Alignment of Culture in Persian Language [0.8182812460605992]
この研究はペルシア語とイラン文化に焦点を当てている。
イラン法、ペルシア語文法、ペルシア語イディオム、大学入試などのトピックについて、LSMを評価するために特別に設計された19の新たな評価データセットを紹介した。
これらのデータセットを用いて41の著名なLCMをベンチマークし,その分野における既存の文化的・言語的評価ギャップを埋めることを目的とした。
論文 参考訳(メタデータ) (2025-08-01T14:46:57Z) - Fluent but Culturally Distant: Can Regional Training Teach Cultural Understanding? [17.231806929840015]
我々は,5つの指標と5つのグローバルLLMを,価値と実践の2つの重要な側面に沿って評価する。
すべての4つのタスクにおいて、Indicモデルはグローバルモデルよりもインド文化の規範と密に一致していないことが分かる。
この失敗は、高品質で、翻訳されず、文化的に根拠のない事前訓練と微調整のデータが不足していることに遡る。
論文 参考訳(メタデータ) (2025-05-25T01:59:23Z) - Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。
CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。
実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文 参考訳(メタデータ) (2025-05-20T23:20:38Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models [26.64843536942309]
大規模言語モデル(LLM)は、ユーザ価値や文化にアウトプットを適応させる必要があります。
LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。
我々はNormAd-Etiを作成した。これは、75か国における、社会的な倫理的関連文化規範を表す2.6kの状況記述のベンチマークである。
論文 参考訳(メタデータ) (2024-04-18T18:48:50Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。