論文の概要: Intelligence Analysis of Language Models
- arxiv url: http://arxiv.org/abs/2407.18968v1
- Date: Sat, 20 Jul 2024 13:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 01:06:22.381489
- Title: Intelligence Analysis of Language Models
- Title(参考訳): 言語モデルのインテリジェンス解析
- Authors: Liane Galanti, Ethan Baron,
- Abstract要約: 本研究では,Large Language Models (LLMs) の Abstraction and Reasoning Corpus (ARC) データセットに対する有効性を検証する。
このデータセットは、抽象推論能力をテストするための代表的なベンチマークとして機能する。
モデル性能向上におけるChain-of-Thought(CoT)手法の適用性を検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this project, we test the effectiveness of Large Language Models (LLMs) on the Abstraction and Reasoning Corpus (ARC) dataset. This dataset serves as a representative benchmark for testing abstract reasoning abilities, requiring a fundamental understanding of key concepts such as object identification, basic counting, and elementary geometric principles. Tasks from this dataset are converted into a prompt-based format for evaluation. Initially, we assess the models' potential through a Zero-shot approach. Subsequently, we investigate the application of the Chain-of-Thought (CoT) technique, aiming to determine its role in improving model performance. Our results suggest that, despite the high expectations placed on contemporary LLMs, these models still struggle in non-linguistic domains, even when dealing with simpler subsets of the ARC dataset. Our study is the first to concentrate on the capabilities of open-source models in this context. The code, dataset, and prompts supporting this project's findings can be found in our GitHub repository, accessible at: https://github.com/Lianga2000/LLMsOnARC.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) のARCデータセット上での有効性を検証する。
このデータセットは抽象的推論能力をテストするための代表的なベンチマークとして機能し、オブジェクトの識別、基本的な数え上げ、基本的な幾何学原理といった重要な概念の基本的な理解を必要とする。
このデータセットからのタスクは、評価のためのプロンプトベースのフォーマットに変換される。
当初、ゼロショットアプローチによりモデルの可能性を評価する。
その後、モデル性能向上におけるその役割を決定することを目的として、Chain-of-Thought(CoT)手法の適用について検討する。
我々の結果は、現代のLLMに期待されているにもかかわらず、これらのモデルは、ARCデータセットのより単純なサブセットを扱う場合でも、非言語的な領域で依然として苦戦していることを示唆している。
私たちの研究は、この文脈におけるオープンソースモデルの能力に焦点を当てた初めてのものです。
このプロジェクトの発見をサポートするコード、データセット、プロンプトは、GitHubリポジトリにある。
関連論文リスト
- Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。
提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文 参考訳(メタデータ) (2024-10-30T17:59:01Z) - Deep Model Interpretation with Limited Data : A Coreset-based Approach [0.810304644344495]
本稿では,コアセット選択手法を用いて,大規模データセットの代表的なサブセットを抽出する,コアセットに基づく解釈フレームワークを提案する。
本稿では,モデル解釈手法のロバスト性を評価するための類似性に基づく評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:07:24Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。