論文の概要: An Investigation of Linguistic Biases in LLM-Based Recommendations
- arxiv url: http://arxiv.org/abs/2604.25456v1
- Date: Tue, 28 Apr 2026 10:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.81025
- Title: An Investigation of Linguistic Biases in LLM-Based Recommendations
- Title(参考訳): LLMに基づくレコメンデーションにおける言語的ビアーゼの検討
- Authors: Nitin Venkateswaran, Jason Ang, Deep Adhikari, Tarun Krishna Dasari,
- Abstract要約: ダイアモンドは、テストされたモデルで選択されたレストランの種類で重要な役割を果たします。
モデルサイズに基づく違いには大きな傾向は見られない。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate linguistic biases in LLM-based restaurant and product recommendations given prompts varying across Southern American English (AE), Indian English (IE), and Code-Switched Hindi-English dialects, using the Yelp Open dataset (Yelp Inc., 2023) and Walmart product reviews dataset (PromptCloud,2020). We add lists of restaurant and product names balanced by cuisine type and product category to the prompts given to the LLM, and we zero-shot prompt the LLMs in a cold-start setting to select the top-20 restaurant and product recommendations from these lists for each of the dialect-varied prompts. We prompt LLMs using different list samples across 20 seeds for better generalization, and aggregate per cuisine-type and per category response counts for each seed, question/prompt, and LLM model. We run mixed-effects regression models for each model family and topic (restaurant/product) with the aggregate response counts as the dependent, and conduct likelihood ratio tests for the fixed effects with post-hoc pairwise testing of estimated marginal means differences, to investigate group-level differences in recommendation counts by model size and dialect type. Results show that dialect plays a role in the type of restaurant selected across the models tested with the mistral-small-3.1 model and both the llama-3.1 family models tested showing more sensitivity to Indian English and Code-Switched prompts. In terms of product recommendations, the llama-3.1-70B-model is particularly sensitive to Code-Switched prompts in four out of seven categories, and more beauty and home category recommendations are seen when using the Indian English and Code-Switched prompts for larger and smaller models, respectively. No broad trends are seen in the model-size based differences, with differing recommendations based on model sizes conditioned by the type of dialect.
- Abstract(参考訳): LLMをベースとしたレストランの言語バイアスと、南アメリカ英語(AE)、インド英語(IE)、コードスイッチドヒンディー語方言(IE)、およびコードスイッチドヒンディー語方言において、Yelpオープンデータセット(Yelp Inc., 2023)とWalmart製品レビューデータセット(PromptCloud, 2020)を用いて、プロンプトを付与した商品レコメンデーション(商品レコメンデーション)について検討した。
我々は, LLMに与えられたプロンプトに, 料理の種類と商品カテゴリーでバランスのとれたレストラン名と商品名のリストを追加し, コールドスタート設定でLDMをゼロショットし, それぞれの方言に精通したプロンプトから上位20のレストラン名と商品レコメンデーションを選択する。
我々は,20種にまたがる異なるリストサンプルを用いてLLMを誘導し,各種,質問/提案,LLMモデルについて,料理タイプ別およびカテゴリー別応答数毎の集計を行った。
モデルサイズと弁別型によるグループレベルの推薦数差を調査するため,各モデルファミリーとトピック(レストラン/商品)のアグリゲート応答数に依存した混合効果回帰モデルを実行し,各モデルファミリーとトピック(レストラン/商品)のアグリゲート応答数を推定する。
その結果、方言は、ミストラル・スモール-3.1モデルとラマ-3.1ファミリーモデルの両方でテストされ、インド英語やコードスイッチド・プロンプトに対してより敏感であることが示されている。
製品レコメンデーションの面では、ラマ-3.1-70Bモデルは7つのカテゴリのうち4つのコードスイッチドプロンプトに特に敏感であり、インド英語とコードスイッチドプロンプトをそれぞれ大小のモデルに使用する際には、より美とホームカテゴリーのレコメンデーションが見られる。
モデルサイズに基づく差異には大きな傾向は見られず、弁証の種類によって条件付けられたモデルサイズに基づいた推奨が異なる。
関連論文リスト
- Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs [35.2977350485249]
この研究は、局所的曖昧な質問に答えることによって、モデルの言語内および言語内バイアスを定量化することを目的としている。
12言語で2,156の質問を含むテストセットであるLocQAを提案する。
我々は、英語以外の言語でモデルが質問される場合であっても、米国地域に関連する回答に対する世界的偏見を示す。
言語内において、複数の局所が同じ言語に関連がある場合、モデルが人口統計確率エンジンとして機能し、より人口の多い局所を優先することを示す。
論文 参考訳(メタデータ) (2026-04-21T09:57:41Z) - Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions [16.64653069179642]
MCQ(Multiple-Choice Questions)は、知識、推論能力、さらには大きな言語モデル(LLM)で符号化された値を評価するためにしばしば用いられる。
論文 参考訳(メタデータ) (2026-02-05T17:44:06Z) - Who Laughs with Whom? Disentangling Influential Factors in Humor Preferences across User Clusters and LLMs [53.060893644603844]
大きな言語モデル(LLMs)を用いたユーモアの評価を複雑にし、個人や文化に幅広い相違点がある。
本研究では,ユーザの投票ログをクラスタリングし,Bradley-Terry-Luceモデルを用いた解釈可能な選好因子よりもクラスタ固有の重みを推定することにより,日本の創造的反応ゲームであるOogiriにおけるユーモア選好の不均一性をモデル化する。
論文 参考訳(メタデータ) (2026-01-06T15:33:45Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.221060995324436]
大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文 参考訳(メタデータ) (2025-02-17T03:24:02Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。