Fugu-MT 論文翻訳(概要): Exploring the Limitations of Large Language Models in Compositional Relation Reasoning

論文の概要: Exploring the Limitations of Large Language Models in Compositional Relation Reasoning

arxiv url: http://arxiv.org/abs/2403.02615v1
Date: Tue, 5 Mar 2024 03:07:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:17:10.354992
Title: Exploring the Limitations of Large Language Models in Compositional Relation Reasoning
Title（参考訳）: 構成関係推論における大規模言語モデルの限界を探る
Authors: Jinman Zhao, Xueyan Zhang
Abstract要約: 本稿では,1500の英語テストケースを含むベンチマークを用いて,大規模言語モデルの合成関係を推論する能力を総合的に評価する。多言語能力の重要性を認め,これらの症例の中国語,日本語,フランス語,韓国語への翻訳を含むように評価を拡大した。
参考スコア（独自算出の注目度）: 3.8816475772261603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comprehensive evaluation of large language models(LLMs)' ability to reason about composition relations through a benchmark encompassing 1,500 test cases in English, designed to cover six distinct types of composition relations: Positional, Comparative, Personal, Mathematical, Identity, and Other. Acknowledging the significance of multilingual capabilities, we expanded our assessment to include translations of these cases into Chinese, Japanese, French, and Korean. Our Multilingual Composition Relation (MCR) benchmark aims at investigating the robustness and adaptability of LLMs in handling composition relation reasoning across diverse linguistic contexts.
Abstract（参考訳）: 本稿では,大言語モデル(llms)による構成関係を推論する能力の包括的評価について,位置関係,比較,個人的,数学的,アイデンティティ,その他6種類の異なる構成関係をカバーするように設計された,1500のテストケースを包含するベンチマークを用いて述べる。多言語能力の重要性を認め,これらの症例の中国語,日本語,フランス語,韓国語への翻訳を含むように評価を拡大した。我々のMCR(Multilingual composition Relation)ベンチマークは,多言語文脈における構成関係推論におけるLLMの堅牢性と適応性について検討することを目的としている。

関連論文リスト

MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文参考訳（メタデータ） (2025-05-30T14:25:45Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [34.21958956053967]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。 XIFBenchは、LLMの多言語命令追従能力を評価するための制約ベースのベンチマークである。
論文参考訳（メタデータ） (2025-03-10T17:07:52Z)
Multilingual Relative Clause Attachment Ambiguity Resolution in Large Language Models [2.3749120526936465]
大型言語モデル (LLM) は相対節 (RC) のアタッチメントの曖昧さを解消する。我々はLLMが言語の複雑さの中で人間的な解釈を達成できるかどうかを評価する。我々は、英語、スペイン語、フランス語、ドイツ語、日本語、韓国語でモデルを評価する。
論文参考訳（メタデータ） (2025-03-04T19:56:56Z)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。 1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳（メタデータ） (2025-02-17T06:56:33Z)
Analysis of Indic Language Capabilities in LLMs [0.3599866690398789]
本報告では,テキスト入力による大規模言語モデル(LLM)の性能評価を行い,Indic言語を理解・生成する。ヒンディー語はモデルの中で最も広く表現されている言語である。モデルパフォーマンスは、上位5言語の話者数と大まかに相関するが、その後の評価は様々である。
論文参考訳（メタデータ） (2025-01-23T18:49:33Z)
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文参考訳（メタデータ） (2024-09-26T14:40:45Z)
Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文参考訳（メタデータ） (2024-07-01T15:11:37Z)
MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。 Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文参考訳（メタデータ） (2024-06-11T21:46:03Z)
Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文参考訳（メタデータ） (2024-02-21T11:07:07Z)
BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。 BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文参考訳（メタデータ） (2023-05-24T08:06:33Z)
MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文参考訳（メタデータ） (2023-05-08T09:48:21Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。