Fugu-MT 論文翻訳(概要): Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings

論文の概要: Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings

arxiv url: http://arxiv.org/abs/2309.08591v2
Date: Sat, 30 Mar 2024 17:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 15:34:46.280063
Title: Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings
Title（参考訳）: 多言語LLMは文化的に多言語であるか? : 多文化のプロバーブと発言についての検討
Authors: Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych,
Abstract要約: 大規模言語モデル (LLM) は質問への回答や推論に非常に適している。本研究は,多言語多言語LLMの会話文脈における証明や言説の推論能力について考察する。
参考スコア（独自算出の注目度）: 73.48336898620518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are highly adept at question answering and reasoning tasks, but when reasoning in a situational context, human expectations vary depending on the relevant cultural common ground. As languages are associated with diverse cultures, LLMs should also be culturally-diverse reasoners. In this paper, we study the ability of a wide range of state-of-the-art multilingual LLMs (mLLMs) to reason with proverbs and sayings in a conversational context. Our experiments reveal that: (1) mLLMs "know" limited proverbs and memorizing proverbs does not mean understanding them within a conversational context; (2) mLLMs struggle to reason with figurative proverbs and sayings, and when asked to select the wrong answer (instead of asking it to select the correct answer); and (3) there is a "culture gap" in mLLMs when reasoning about proverbs and sayings translated from other languages. We construct and release our evaluation dataset MAPS (MulticultrAl Proverbs and Sayings) for proverb understanding with conversational context for six different languages.
Abstract（参考訳）: 大規模言語モデル(LLM)は、質問への回答や推論のタスクに非常に適しているが、状況的文脈での推論では、人間の期待は関連する文化的共通基盤によって異なる。言語は多様な文化と結びついているので、LLMは文化的に異なる推論者でもあるべきです。本稿では,多言語多言語 LLM (mLLMs) が,会話の文脈における証明や言い回しを推論する能力について検討する。実験の結果,(1)mLLMの「知識」が限定されていること,(2)mLLMの「知識」が会話の文脈内で理解できないこと,(2)mLLMが具体的証明や言説の推論に苦慮していること,(3)mLLMが正しい回答を選択する代わりに間違った回答を選択すること,(3)他の言語から翻訳された言説を推論する場合に,mLLMの「文化ギャップ」が存在することがわかった。評価データセットMAPS (MulticultrAl Proverbs and Sayings) を構築・リリースし、6つの異なる言語に対する会話コンテキストによる理解を実証する。

関連論文リスト

MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文参考訳（メタデータ） (2025-06-03T05:23:25Z)
LLMs syntactically adapt their language use to their conversational partner [58.92470092706263]
人間の話者は会話中に言語の使用が互いに一致していることがよく観察されている。大規模言語モデル(LLM)間の会話のコーパスを構築し、2つのLLMエージェントが会話が進むにつれて、より類似した構文的選択をするのを見つける。
論文参考訳（メタデータ） (2025-03-10T15:37:07Z)
Decoding Multilingual Moral Preferences: Unveiling LLM's Biases Through the Moral Machine Experiment [11.82100047858478]
本稿では,多言語環境下での5つの大規模言語モデルの道徳的嗜好を検討するために,モラルマシン実験(MME)に基づく。我々は、MMEの6500のシナリオを生成し、どのアクションをとるか10言語でモデルを促す。我々の分析によると、全てのLLMはある程度異なる道徳的偏見を阻害し、人間の嗜好と異なるだけでなく、モデル自体の複数の言語にもまたがっている。
論文参考訳（メタデータ） (2024-07-21T14:48:13Z)
CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文参考訳（メタデータ） (2024-06-25T17:45:26Z)
See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文参考訳（メタデータ） (2024-06-17T15:49:51Z)
BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.17279399722437]
大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。 BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文参考訳（メタデータ） (2024-06-14T11:48:54Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文参考訳（メタデータ） (2024-04-10T08:49:27Z)
Open Conversational LLMs do not know most Spanish words [2.737783055857426]
我々は,オープンソースチャットLLMがスペイン語の単語に対して持つ知識を,参照辞書における単語のサンプルをテストすることによって評価する。その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くためにほとんどの単語を正しく利用できないことがわかった。
論文参考訳（メタデータ） (2024-03-21T15:41:02Z)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (2024-03-15T12:47:39Z)
Breaking the Language Barrier: Improving Cross-Lingual Reasoning with Structured Self-Attention [18.439771003766026]
多言語言語モデル(MultiLM)が、異なる言語での推論のために微調整された場合、論理的推論能力を他の言語に伝達できるかどうかを検討する。我々は,MultiLMが言語間の推論能力をモノリンガルな環境で伝達できることを実証した。この観察に続いて,コードスイッチングシーケンスにおける言語横断的な注意を促すために,専用パラメータセットを用いた新しいアテンション機構を提案する。
論文参考訳（メタデータ） (2023-10-23T18:06:38Z)
Multilingual Language Models are not Multicultural: A Case Study in Emotion [8.73324795579955]
2023年の多言語LMは、文化や言語間の感情表現の相違を反映しているかどうかを考察する。 LMから得られる埋め込みはアングロ中心であり、生成的LMは他言語のプロンプトに応答しても西洋のノルムを反映している。
論文参考訳（メタデータ） (2023-07-03T21:54:28Z)
Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。モデルは英語から道徳的規範を捉え、他の言語に強制するか? 我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文参考訳（メタデータ） (2022-11-14T20:08:54Z)
Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文参考訳（メタデータ） (2022-03-18T12:26:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。