論文の概要: Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.15999v1
- Date: Sun, 24 Nov 2024 22:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:45.503326
- Title: Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models
- Title(参考訳): マルチToM:大規模言語モデルにおけるマインド能力の多言語理論の評価
- Authors: Jayanta Sadhu, Ayan Antik Khan, Noshin Nawal, Sanju Basak, Abhik Bhattacharjee, Rifat Shahriyar,
- Abstract要約: 心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対して精神状態を推論し、評価する認知能力のこと。
大規模言語モデル(LLM)が多種多様な言語や文化的文脈でToMをどの程度示すかは、いまだに不明である。
本稿では,このギャップに対処することを目的とした多言語ToM機能に関する総合的研究を紹介する。
- 参考スコア(独自算出の注目度): 3.9532244541907793
- License:
- Abstract: Theory of Mind (ToM) refers to the cognitive ability to infer and attribute mental states to oneself and others. As large language models (LLMs) are increasingly evaluated for social and cognitive capabilities, it remains unclear to what extent these models demonstrate ToM across diverse languages and cultural contexts. In this paper, we introduce a comprehensive study of multilingual ToM capabilities aimed at addressing this gap. Our approach includes two key components: (1) We translate existing ToM datasets into multiple languages, effectively creating a multilingual ToM dataset and (2) We enrich these translations with culturally specific elements to reflect the social and cognitive scenarios relevant to diverse populations. We conduct extensive evaluations of six state-of-the-art LLMs to measure their ToM performance across both the translated and culturally adapted datasets. The results highlight the influence of linguistic and cultural diversity on the models' ability to exhibit ToM, and questions their social reasoning capabilities. This work lays the groundwork for future research into enhancing LLMs' cross-cultural social cognition and contributes to the development of more culturally aware and socially intelligent AI systems. All our data and code are publicly available.
- Abstract(参考訳): 心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対して精神状態を推論し、評価する認知能力のこと。
大規模言語モデル(LLM)は、社会的・認知的能力においてますます評価されているため、これらのモデルが様々な言語や文化的文脈でToMをどの程度示すかは、いまだ不明である。
本稿では,このギャップに対処することを目的とした多言語ToM機能に関する総合的研究を紹介する。
提案手法は,(1)既存のToMデータセットを複数の言語に翻訳し,効果的に多言語ToMデータセットを作成し,(2)これらの翻訳を文化的に特異的な要素で強化し,多様な集団に関連する社会的・認知的シナリオを反映する。
我々は、6つの最先端LCMの広範囲な評価を行い、翻訳されたデータセットと文化に適応したデータセットの両方でToMの性能を測定した。
The results highlight the influence of language and cultural diversity on the model's ability to exhibit ToM, and questions their social reasoning capabilities。
この研究は、LLMの文化的社会的認知を高めるための将来の研究の基盤となり、より文化的に認識され、社会的に知的なAIシステムの開発に寄与する。
データとコードは、すべて公開されています。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Multilingual Large Language Models: A Systematic Survey [38.972546467173565]
本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。
まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。
本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
論文 参考訳(メタデータ) (2024-11-17T13:21:26Z) - JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning [23.418656688405605]
本研究では, 異なるテスト言語で符号化された文化的価値に言語がどのように影響するかを, 微調整時にどのように修正されるかを検討する。
最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。
論文 参考訳(メタデータ) (2024-05-21T12:55:15Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。