論文の概要: How to Measure the Intelligence of Large Language Models?
- arxiv url: http://arxiv.org/abs/2407.20828v1
- Date: Tue, 30 Jul 2024 13:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:10:01.047369
- Title: How to Measure the Intelligence of Large Language Models?
- Title(参考訳): 大規模言語モデルのインテリジェンスを測定するには?
- Authors: Nils Körber, Silvan Wehrli, Christopher Irrgang,
- Abstract要約: 言語モデルのインテリジェンスは、タスク固有の統計指標によってのみ評価されるべきではない、と我々は主張する。
我々は,メトリクスの選択が,潜在的なインテリジェンスの発生に対する評価に劇的な影響を及ぼすことを示した。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the release of ChatGPT and other large language models (LLMs) the discussion about the intelligence, possibilities, and risks, of current and future models have seen large attention. This discussion included much debated scenarios about the imminent rise of so-called "super-human" AI, i.e., AI systems that are orders of magnitude smarter than humans. In the spirit of Alan Turing, there is no doubt that current state-of-the-art language models already pass his famous test. Moreover, current models outperform humans in several benchmark tests, so that publicly available LLMs have already become versatile companions that connect everyday life, industry and science. Despite their impressive capabilities, LLMs sometimes fail completely at tasks that are thought to be trivial for humans. In other cases, the trustworthiness of LLMs becomes much more elusive and difficult to evaluate. Taking the example of academia, language models are capable of writing convincing research articles on a given topic with only little input. Yet, the lack of trustworthiness in terms of factual consistency or the existence of persistent hallucinations in AI-generated text bodies has led to a range of restrictions for AI-based content in many scientific journals. In view of these observations, the question arises as to whether the same metrics that apply to human intelligence can also be applied to computational methods and has been discussed extensively. In fact, the choice of metrics has already been shown to dramatically influence assessments on potential intelligence emergence. Here, we argue that the intelligence of LLMs should not only be assessed by task-specific statistical metrics, but separately in terms of qualitative and quantitative measures.
- Abstract(参考訳): ChatGPTや他の大規模言語モデル(LLM)のリリースにより、現在のモデルと将来のモデルのインテリジェンス、可能性、リスクに関する議論が注目されている。
この議論には、いわゆる「スーパーヒューマン」AI(つまり、人間よりも桁違いに賢いAIシステム)の急激な台頭について、多くの議論がなされたシナリオが含まれていた。
アラン・チューリングの精神では、現在最先端の言語モデルが既に彼の有名なテストに合格していることは間違いない。
さらに、現在のモデルは、いくつかのベンチマークテストで人間よりも優れており、公開されているLLMは、日々の生活、産業、科学を結びつける汎用的なコンパニオンになっている。
素晴らしい能力にもかかわらず、LLMは人間にとって簡単なタスクで完全に失敗することがある。
その他のケースでは、LSMsの信頼性はより解明され、評価が困難になる。
学術の例として、言語モデルは、わずかに入力するだけで、あるトピックに関する説得力のある研究論文を書くことができる。
しかし、事実の一貫性の欠如や、AI生成されたテキストボディに永続的な幻覚が存在するという観点からの信頼性の欠如は、多くの科学雑誌においてAIベースのコンテンツに対する幅広い制限をもたらしている。
これらの観察から、人間の知能に当てはまる同じ指標が計算手法にも適用できるのかという疑問が持ち上がり、広く議論されてきた。
実際、メトリクスの選択は、潜在的なインテリジェンスの発生に対する評価に劇的に影響を与えることがすでに示されている。
ここでは、LCMの知能はタスク固有の統計指標によって評価されるだけでなく、質的、定量的な尺度によって別々に評価されるべきである、と論じる。
関連論文リスト
- Generative AI in Writing Research Papers: A New Type of Algorithmic Bias
and Uncertainty in Scholarly Work [0.38850145898707145]
大規模言語モデル(LLM)と生成AIツールは、バイアスを特定し、対処する上での課題を提示している。
生成型AIツールは、不正な一般化、幻覚、レッド・チーム・プロンプトのような敵攻撃を目標とする可能性がある。
研究原稿の執筆過程に生成AIを組み込むことで,新しいタイプの文脈依存型アルゴリズムバイアスがもたらされることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:05:04Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Amplifying Limitations, Harms and Risks of Large Language Models [1.0152838128195467]
この記事は、人工知能に関する誇大広告の急増に対抗すべく、小さなジェスチャーとして紹介する。
また、この分野の外部の人たちが、AI技術の限界についてより深く知るのに役立つかもしれない。
論文 参考訳(メタデータ) (2023-07-06T11:53:45Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - A Large-Scale, Automated Study of Language Surrounding Artificial
Intelligence [0.0]
本研究は,2011年から2019年にかけてのニュース記事や学術出版物の中で,人工知能(AI)と機械学習(ML)の大規模な分析を行う。
AI/MLとの共同発生言語のシフトを自動的に識別し、これらの単語関連の強さを定量化する単語関連測定を実施します。
論文 参考訳(メタデータ) (2021-02-24T19:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。