論文の概要: CPopQA: Ranking Cultural Concept Popularity by LLMs
- arxiv url: http://arxiv.org/abs/2311.07897v1
- Date: Tue, 14 Nov 2023 04:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:30:05.167490
- Title: CPopQA: Ranking Cultural Concept Popularity by LLMs
- Title(参考訳): CPopQA:LLMによる文化概念人気ランキング
- Authors: Ming Jiang and Mansi Joshi
- Abstract要約: 本稿では,LLMの長期的文化的概念に対する統計的ランク付け能力を検証した,数発の質問応答タスク(CPopQA)を紹介する。
58か国で459の休日を含むデータセットをキュレートし、合計6000のQAテストペアを生成します。
4つの強力なLCM実験により、大きなモデルは、その統計的傾向に関するロングテールの文化的概念をランク付けできることが示された。
- 参考スコア(独自算出の注目度): 5.600170831006838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has demonstrated large language models' (LLMs) potential to
discern statistical tendencies within their pre-training corpora. Despite that,
many examinations of LLMs' knowledge capacity focus on knowledge explicitly
appearing in the training data or implicitly inferable from similar contexts.
How well an LLM captures the corpus-level statistical trends of concepts for
reasoning, especially long-tail ones, is still underexplored. In this study, we
introduce a novel few-shot question-answering task (CPopQA) that examines LLMs'
statistical ranking abilities for long-tail cultural concepts (e.g., holidays),
with a specific focus on these concepts' popularity in the United States and
the United Kingdom, respectively. We curate a dataset containing 459 holidays
across 58 countries, generating a total of 6,000 QA testing pairs. Experiments
on four strong LLMs show that large models are capable of ranking long-tail
cultural concepts regarding their statistical tendency. Notably, GPT-3.5
displayed superior performance and exhibited its potential to identify
geo-cultural proximity across continents.
- Abstract(参考訳): 先行研究は、学習前コーパス内の統計的傾向を識別する大きな言語モデル(LLM)の可能性を示した。
それにもかかわらず、llmsの知識能力に関する多くの試験は、トレーニングデータに明示的に現れる知識に焦点を当てている。
LLMが、推論、特に長い尾を持つ概念のコーパスレベルの統計的傾向をいかにうまく捉えているかはまだ解明されていない。
本研究では,LLMの長期的文化的概念(例えば,ホリデーシーズン)の統計的ランク付け能力について,米国と英国におけるこれらの概念の人気に特に焦点をあてた,数発の質問応答タスク(CPopQA)を紹介する。
58か国で459の休日を含むデータセットをキュレートし、合計6000のQAテストペアを生成します。
4つの強力なLCM実験により、大きなモデルは、その統計的傾向に関するロングテールの文化的概念をランク付けできることが示された。
特にgpt-3.5は優れた性能を示し、大陸間の地球文化の近さを識別する可能性を示した。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - Do Large Language Models Rank Fairly? An Empirical Study on the Fairness of LLMs as Rankers [27.66626125248612]
本稿では,TREC Fair Ranking データセットを用いて,Large Language Models (LLMs) の評価実験を行った。
本稿では, 歴史的に検索結果に乏しい, 性別や地理的位置などの二項保護属性の表現に焦点を当てる。
我々の分析は、これらのLCMがこれらの属性に関連するクエリやドキュメントをどのように扱うのかを考察し、ランキングアルゴリズムのバイアスを明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-04-04T04:23:19Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。