論文の概要: QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2412.11763v1
- Date: Mon, 16 Dec 2024 13:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:29.289920
- Title: QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs
- Title(参考訳): QUENCH:LLMにおけるインデックスと非インデックスの一般推論のギャップの測定
- Authors: Mohammad Aflah Khan, Neemesh Yadav, Sarah Masud, Md. Shad Akhtar,
- Abstract要約: QUENCHは、YouTubeのクイズビデオから手作業でキュレーションされ、書き起こされる新しいテキストベースのイングリッシュ・クイズ・ベンチマークである。
地理的文脈と常識推論の交差において、QUENCHはLLMの世界の知識と推論能力を評価するのに役立っている。
- 参考スコア(独自算出の注目度): 22.408857659304484
- License:
- Abstract: The rise of large language models (LLMs) has created a need for advanced benchmarking systems beyond traditional setups. To this end, we introduce QUENCH, a novel text-based English Quizzing Benchmark manually curated and transcribed from YouTube quiz videos. QUENCH possesses masked entities and rationales for the LLMs to predict via generation. At the intersection of geographical context and common sense reasoning, QUENCH helps assess world knowledge and deduction capabilities of LLMs via a zero-shot, open-domain quizzing setup. We perform an extensive evaluation on 7 LLMs and 4 metrics, investigating the influence of model size, prompting style, geographical context, and gold-labeled rationale generation. The benchmarking concludes with an error analysis to which the LLMs are prone.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、従来のセットアップ以上の高度なベンチマークシステムの必要性を生み出した。
そこで本研究では,YouTube quiz ビデオから手作業でキュレートして書き起こした新しいテキストベースの English Quizzing Benchmark である QUENCH を紹介する。
QUENCHはLLMが世代別予測を行うためのマスク付き実体と理論的根拠を持っている。
地理的文脈と常識推論の交わりで、QUENCHはゼロショットのオープンドメイン・クイズ・セットアップによってLLMの世界の知識と推論能力を評価するのに役立ちます。
7つのLLMと4つのメトリクスについて広範囲に評価を行い、モデルサイズの影響、スタイル、地理的文脈、ゴールドラベルの有理数生成について検討した。
ベンチマークは、LLMが困難であるエラー解析で締めくくられる。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions [2.5179515260542544]
大規模言語モデル (LLM) は、テキスト生成、質問応答、テキスト要約における汎用的な応用のために、学界や業界全体で大きな注目を集めている。
パフォーマンスを定量化するためには、既存のメトリクスを包括的に把握することが重要です。
本稿では,メトリクスの観点からLLM評価を包括的に調査し,現在使用されているメトリクスの選択と解釈について考察する。
論文 参考訳(メタデータ) (2024-04-14T03:54:00Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - ArcMMLU: A Library and Information Science Benchmark for Large Language
Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。
このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。
総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:08:04Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。