論文の概要: Think Globally, Group Locally: Evaluating LLMs Using Multi-Lingual Word Grouping Games
- arxiv url: http://arxiv.org/abs/2510.14030v1
- Date: Wed, 15 Oct 2025 19:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.591328
- Title: Think Globally, Group Locally: Evaluating LLMs Using Multi-Lingual Word Grouping Games
- Title(参考訳): グローバル, グループローカル:多言語語グループゲームを用いたLLMの評価
- Authors: César Guerra-Solano, Zhuochun Li, Xiang Lorraine Li,
- Abstract要約: 我々はNew York Times Connections: GlobalGroupに触発されたタスクを提案し、複数の言語にまたがる抽象的推論タスクにおいてモデルを評価する。
ネイティブ言語と英訳の双方で5つの言語背景を持つゲームベンチマークを構築した。
英語のモダリティは、この抽象的推論タスクにおけるパフォーマンスの向上と、オープンソースモデルとクローズドソースモデルのパフォーマンスの相違に大きく寄与している。
- 参考スコア(独自算出の注目度): 4.924013532447991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can exhibit biases in reasoning capabilities due to linguistic modality, performing better on tasks in one language versus another, even with similar content. Most previous works evaluate this through reasoning tasks where reliance on strategies or knowledge can ensure success, such as in commonsense or math tasks. However, abstract reasoning is vital to reasoning for everyday life, where people apply "out-of-the-box thinking" to identify and use patterns for solutions, without a reliance on formulaic approaches. Comparatively, little work has evaluated linguistic biases in this task type. In this paper, we propose a task inspired by the New York Times Connections: GlobalGroup, that evaluates models in an abstract reasoning task across several languages. We constructed a game benchmark with five linguistic backgrounds -- English, Spanish, Chinese, Hindi, and Arabic -- in both the native language and an English translation for comparison. We also proposed game difficulty measurements to evaluate models on games with similar difficulty, enabling a more controlled comparison, which is particularly important in reasoning evaluations. Through experimentation, we find English modalities largely lead to better performance in this abstract reasoning task, and performance disparities between open- and closed-source models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語的モダリティによる推論能力のバイアスを示し、類似したコンテンツであっても、ある言語におけるタスクにおいて、他の言語よりも優れたパフォーマンスを発揮する。
これまでのほとんどの研究は、戦略や知識への依存がコモンセンスや数学のタスクのような成功を確実にできるような推論タスクを通じてこれを評価している。
しかし、抽象的推論は、論理的アプローチに頼らずに、ソリューションのパターンを特定し、使用するために「アウト・オブ・ボックス思考」を適用する日常生活の推論に不可欠である。
対照的に、このタスクタイプの言語バイアスを評価する研究はほとんどない。
本稿では,New York Times Connections: GlobalGroupにヒントを得たタスクを提案する。
ネイティブ言語と英訳の両方で、英語、スペイン語、中国語、ヒンディー語、アラビア語の5つの言語背景を持つゲームベンチマークを構築した。
また,同様の難易度を持つゲーム上でのモデル評価のためのゲーム難易度測定も提案し,より制御された比較を可能にした。
実験により、この抽象的推論タスクにおける英語のモダリティは改善され、オープンソースモデルとクローズドソースモデルの間での性能格差が生じることがわかった。
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Inductive Linguistic Reasoning with Large Language Models [0.0]
言語パズルのレンズを通して抽象多言語推論を行うための大規模言語モデルの能力について検討する。
2段階のプロシージャを使用し、まず言語モデルで類似の例を生成し、それを文脈内で適用する。
ModeLing データセットの結果から,言語文法の類似性に関するモデルの知識を抽出する上で,類似的なプロンプトが有効であることが示唆された。
論文 参考訳(メタデータ) (2024-12-09T03:37:11Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。