論文の概要: Separating form and meaning: Using self-consistency to quantify task
understanding across multiple senses
- arxiv url: http://arxiv.org/abs/2305.11662v2
- Date: Tue, 23 May 2023 15:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 11:12:17.774819
- Title: Separating form and meaning: Using self-consistency to quantify task
understanding across multiple senses
- Title(参考訳): 形態と意味の分離:複数感覚におけるタスク理解の定量化に自己整合性を用いる
- Authors: Xenia Ohmer, Elia Bruni, Dieuwke Hupkes
- Abstract要約: 大規模言語モデル(LLM)を評価するための新しいパラダイムを提案する。
モデルの正確性ではなく,モデル自体によって生成される複数の感覚の一貫性を評価することで,理解度を測定する。
我々のアプローチは、英語以外の言語で静的評価コーパスを必要としない。
- 参考スコア(独自算出の注目度): 21.291368397306407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At the staggering pace with which the capabilities of large language models
(LLMs) are increasing, creating future-proof evaluation sets to assess their
understanding becomes more and more challenging. In this paper, we propose a
novel paradigm for evaluating LLMs which leverages the idea that correct world
understanding should be consistent across different (Fregean) senses of the
same meaning. Accordingly, we measure understanding not in terms of correctness
but by evaluating consistency across multiple senses that are generated by the
model itself. We showcase our approach by instantiating a test where the
different senses are different languages, hence using multilingual
self-consistency as a litmus test for the model's understanding and
simultaneously addressing the important topic of multilingualism. Taking one of
the latest versions of ChatGPT as our object of study, we evaluate multilingual
consistency for two different tasks across three different languages. We show
that its multilingual consistency is still lacking, and that its task and world
understanding are thus not language-independent. As our approach does not
require any static evaluation corpora in languages other than English, it can
easily and cheaply be extended to different languages and tasks and could
become an integral part of future benchmarking efforts.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が増大する停滞するペースでは、その理解を評価するための将来的な評価セットがますます難しくなっている。
本稿では, 正しい世界理解は, 同じ意味の異なる(Fregean)感覚にまたがって整合するべきだという考え方を生かして, LLMを評価するための新しいパラダイムを提案する。
したがって、モデルの正確性ではなく、モデル自体によって生成される複数の感覚の一貫性を評価することで理解度を測定する。
我々は,異なる感覚が異なる言語であるテストのインスタンス化を行い,モデル理解のためのリトマステストとして多言語自己一貫性を用い,同時に多言語主義の重要な話題に対処した。
そこで我々は,ChatGPTの最新バージョンを研究対象として,3言語にわたる2つのタスクの多言語一貫性を評価した。
その多言語一貫性は依然として欠如しており、そのタスクと世界理解は言語に依存しない。
我々のアプローチは英語以外の言語で静的評価コーパスを必要としないため、様々な言語やタスクに簡単かつ安価に拡張することができ、将来のベンチマーク活動の不可欠な部分となる可能性がある。
関連論文リスト
- Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency [13.154753046052527]
言語間の一貫性とパラフレーズに重点を置いています。
モデルのマルチセンス一貫性が欠如していることに気付き、検証のためにいくつかのフォローアップ分析を実行する。
この観点では、LLMの理解は、一貫性と人間的類似性にはまだ程遠い、と結論付けています。
論文 参考訳(メタデータ) (2024-04-18T12:48:17Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Language Modelling as a Multi-Task Problem [12.48699285085636]
言語モデルが訓練中のマルチタスク学習の学習原理に適合するかどうかを検討する。
実験では、言語モデリングのより一般的なタスクの目的の中で、マルチタスク設定が自然に現れることを示した。
論文 参考訳(メタデータ) (2021-01-27T09:47:42Z) - Meta-Learning for Effective Multi-task and Multilingual Modelling [23.53779501937046]
タスクと言語間の相互作用を学ぶためのメタラーニング手法を提案する。
我々は、XTREME多言語ベンチマークデータセットから5つの異なるタスクと6つの異なる言語に関する実験を提示する。
論文 参考訳(メタデータ) (2021-01-25T19:30:26Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。