Fugu-MT 論文翻訳(概要): M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark

論文の概要: M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark

arxiv url: http://arxiv.org/abs/2406.05343v2
Date: Fri, 14 Jun 2024 08:35:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 18:13:31.828854
Title: M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark
Title（参考訳）: M3GIA: マルチ言語およびマルチモーダル・ジェネラルインテリジェンス能力ベンチマークに着想を得た認知
Authors: Wei Song, Yadong Li, Jianhua Xu, Guowei Wu, Lingfeng Ming, Kexin Yi, Weihua Luo, Houyi Li, Yi Du, Fangda Guo, Kaicheng Yu,
Abstract要約: 我々は,MLLMの汎用知能を評価するために,認知駆動型多言語・多モーダルベンチマークを導入した。我々は,知能のモデルであるキャッテル・ホルン・キャロル(CHC)に基づいて,5つの認知要因を同定した。私たちは英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含しています。
参考スコア（独自算出の注目度）: 25.44666570272266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As recent multi-modality large language models (MLLMs) have shown formidable proficiency on various complex tasks, there has been increasing attention on debating whether these models could eventually mirror human intelligence. However, existing benchmarks mainly focus on evaluating solely on task performance, such as the accuracy of identifying the attribute of an object. Combining well-developed cognitive science to understand the intelligence of MLLMs beyond superficial achievements remains largely unexplored. To this end, we introduce the first cognitive-driven multi-lingual and multi-modal benchmark to evaluate the general intelligence ability of MLLMs, dubbed M3GIA. Specifically, we identify five key cognitive factors based on the well-recognized Cattell-Horn-Carrol (CHC) model of intelligence and propose a novel evaluation metric. In addition, since most MLLMs are trained to perform in different languages, a natural question arises: is language a key factor influencing the cognitive ability of MLLMs? As such, we go beyond English to encompass other languages based on their popularity, including Chinese, French, Spanish, Portuguese and Korean, to construct our M3GIA. We make sure all the data relevant to the cultural backgrounds are collected from their native context to avoid English-centric bias. We collected a significant corpus of data from human participants, revealing that the most advanced MLLM reaches the lower boundary of human intelligence in English. Yet, there remains a pronounced disparity in the other five languages assessed. We also reveals an interesting winner takes all phenomenon that are aligned with the discovery in cognitive studies. Our benchmark will be open-sourced, with the aspiration of facilitating the enhancement of cognitive capabilities in MLLMs.
Abstract（参考訳）: 近年、MLLM(Multi-modality large language model)は、様々な複雑なタスクにおいて、極めて高い習熟度を示しており、これらのモデルが最終的に人間の知能を反映するかどうかの議論に注目が集まっている。しかし、既存のベンチマークは主に、オブジェクトの属性を特定する精度など、タスクのパフォーマンスのみを評価することに重点を置いている。表面的な達成以上のMLLMの知性を理解するために、よく発達した認知科学を組み合わせることは、ほとんど未解明のままである。この目的のために,M3GIAと呼ばれるMLLMの汎用インテリジェンス能力を評価するために,認知駆動型マルチ言語およびマルチモーダルベンチマークを導入した。具体的には、よく認識されている知能のキャッテル・ホルン・キャロルモデル(CHC)に基づいて、5つの重要な認知要因を同定し、新しい評価基準を提案する。さらに、ほとんどのMLLMは異なる言語で実行するように訓練されているため、自然な疑問が生じる: 言語はMLLMの認知能力に影響を与える重要な要因か? そのため、我々は英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含し、我々のM3GIAを構築する。文化背景に関連するすべてのデータが、英語中心のバイアスを避けるために、彼らのネイティブコンテキストから収集されることを確認します。我々は、人間の参加者から大量のデータを収集し、最も進歩したMLLMが、英語における人間の知能の下位境界に達することを明らかにした。しかし、他の5つの言語には明らかな相違がある。我々はまた、認知研究における発見と一致したすべての現象を、興味深い勝者が取ることも明らかにした。我々のベンチマークはオープンソースであり、MLLMにおける認知能力の向上を促進することを目的としています。

関連論文リスト

The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。 XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文参考訳（メタデータ） (2025-06-03T05:23:25Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。 BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文参考訳（メタデータ） (2025-02-06T18:08:14Z)
Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models [3.9532244541907793]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対して精神状態を推論し、評価する認知能力のこと。大規模言語モデル(LLM)が多種多様な言語や文化的文脈でToMをどの程度示すかは、いまだに不明である。本稿では,このギャップに対処することを目的とした多言語ToM機能に関する総合的研究を紹介する。
論文参考訳（メタデータ） (2024-11-24T22:37:59Z)
How Do Multilingual Models Remember? Investigating Multilingual Factual Recall Mechanisms [50.13632788453612]
大規模言語モデル(LLM)は、事前訓練中に取得した膨大な事実知識を格納し、取得する。これらのプロセスが他の言語や多言語 LLM にどのように一般化されるのかという問題は未解明のままである。言語がリコールプロセスにおいてどのような役割を果たすのかを考察し,言語に依存しない,言語に依存したメカニズムの証拠を明らかにする。
論文参考訳（メタデータ） (2024-10-18T11:39:34Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? [46.43162333819418]
大規模言語モデル(LLM)は、様々な言語にまたがって情報を処理できることから、大きな注目を集めている。それらの能力にもかかわらず、異なる言語で同じクエリを扱うことに矛盾を示し、さらなる進歩のための課題を提示している。本稿では,多言語からの知識を集約することで,LLMの多言語的性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-06-20T20:32:53Z)
Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文参考訳（メタデータ） (2024-05-09T12:58:22Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文参考訳（メタデータ） (2024-04-01T05:13:56Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
Spoken Language Intelligence of Large Language Models for Language Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文参考訳（メタデータ） (2023-08-28T12:47:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。