論文の概要: XToM: Exploring the Multilingual Theory of Mind for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.02461v1
- Date: Tue, 03 Jun 2025 05:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.295055
- Title: XToM: Exploring the Multilingual Theory of Mind for Large Language Models
- Title(参考訳): XToM:大規模言語モデルのための多言語マインド理論の探求
- Authors: Chunkit Chan, Yauwai Yim, Hongchuan Zeng, Zhiying Zou, Xinyuan Cheng, Zhifan Sun, Zheye Deng, Kawai Chung, Yuzhuo Ao, Yixiang Fan, Cheng Jiayang, Ercong Nie, Ginny Y. Wong, Helmut Schmid, Hinrich Schütze, Simon See, Yangqiu Song,
- Abstract要約: LLMにおける既存の心の理論の評価は英語に限られている。
XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
- 参考スコア(独自算出の注目度): 57.9821865189077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM), the ability to infer mental states in others, is pivotal for human social cognition. Existing evaluations of ToM in LLMs are largely limited to English, neglecting the linguistic diversity that shapes human cognition. This limitation raises a critical question: can LLMs exhibit Multilingual Theory of Mind, which is the capacity to reason about mental states across diverse linguistic contexts? To address this gap, we present XToM, a rigorously validated multilingual benchmark that evaluates ToM across five languages and incorporates diverse, contextually rich task scenarios. Using XToM, we systematically evaluate LLMs (e.g., DeepSeek R1), revealing a pronounced dissonance: while models excel in multilingual language understanding, their ToM performance varies across languages. Our findings expose limitations in LLMs' ability to replicate human-like mentalizing across linguistic contexts.
- Abstract(参考訳): 心の理論(Theory of Mind, ToM)は、人間の社会的認知にとって重要な概念である。
LLMにおける既存のToMの評価は英語に限られており、人間の認知を形作る言語的多様性を無視している。
LLMは多言語的思考理論(Multilingual Theory of Mind)を提示できるだろうか。
このギャップに対処するため、我々は5つの言語でToMを評価し、多様なコンテキストに富んだタスクシナリオを組み込んだ、厳格に検証された多言語ベンチマークであるXToMを提案する。
XToMを用いて、LLM(例えばDeepSeek R1)を体系的に評価し、多言語言語理解においてモデルが優れているのに対して、ToMの性能は言語によって異なることを明らかにする。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
関連論文リスト
- When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models [3.9532244541907793]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対して精神状態を推論し、評価する認知能力のこと。
大規模言語モデル(LLM)が多種多様な言語や文化的文脈でToMをどの程度示すかは、いまだに不明である。
本稿では,このギャップに対処することを目的とした多言語ToM機能に関する総合的研究を紹介する。
論文 参考訳(メタデータ) (2024-11-24T22:37:59Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、ほとんどは不均衡なトレーニングコーパスのため英語中心である。
実世界のユーザクエリと非英語中心のLLMに評価を拡張し、多言語性能のより広範な評価を提供する。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。
我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。
これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。