論文の概要: Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence
- arxiv url: http://arxiv.org/abs/2410.15490v2
- Date: Tue, 22 Oct 2024 07:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:56.013933
- Title: Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence
- Title(参考訳): ダイナミックインテリジェンスアセスメント:モデル信頼性に着目したAGIへの道のLLMのベンチマーク
- Authors: Norbert Tihanyi, Tamas Bisztray, Richard A. Dubniczky, Rebeka Toth, Bertalan Borsos, Bilel Cherif, Mohamed Amine Ferrag, Lajos Muzsai, Ridhi Jain, Ryan Marinelli, Lucas C. Cordeiro, Merouane Debbah,
- Abstract要約: 我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。
付随するDIA-Benchデータセットは、テキスト、PDF、コンパイルされたバイナリ、視覚パズルなど、さまざまなフォーマットで表示される。
- 参考スコア(独自算出の注目度): 3.566250952750758
- License:
- Abstract: As machine intelligence evolves, the need to test and compare the problem-solving abilities of different AI models grows. However, current benchmarks are often overly simplistic, allowing models to perform uniformly well, making it difficult to distinguish their capabilities. Additionally, benchmarks typically rely on static question-answer pairs, which models might memorize or guess. To address these limitations, we introduce the Dynamic Intelligence Assessment (DIA), a novel methodology for testing AI models using dynamic question templates and improved metrics across multiple disciplines such as mathematics, cryptography, cybersecurity, and computer science. The accompanying DIA-Bench dataset, which includes 150 diverse and challenging task templates with mutable parameters, is presented in various formats such as text, PDFs, compiled binaries, and visual puzzles. Our framework introduces four new metrics to assess a model's reliability and confidence across multiple attempts. These metrics revealed that even simple questions are frequently answered incorrectly when posed in varying forms, highlighting significant gaps in models' reliability. Notably, models like GPT-4o tended to overestimate their mathematical abilities, while ChatGPT-4o demonstrated better decision-making and performance through effective tool usage. We evaluated eight state-of-the-art large language models (LLMs) using DIA-Bench, showing that current models struggle with complex tasks and often display unexpectedly low confidence, even with simpler questions. The DIA framework sets a new standard for assessing not only problem-solving but also a model's adaptive intelligence and ability to assess its own limitations. The dataset is publicly available on our project's website.
- Abstract(参考訳): マシンインテリジェンスが進化するにつれて、さまざまなAIモデルの問題解決能力のテストと比較の必要性が高まっている。
しかし、現在のベンチマークは、しばしば過度に単純化されており、モデルが一様に機能するので、それらの能力を区別することは困難である。
さらに、ベンチマークは静的な問合せペアに依存しており、モデルが記憶したり推測したりすることもある。
この制限に対処するために、動的質問テンプレートを使用してAIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を導入し、数学、暗号、サイバーセキュリティ、コンピュータサイエンスなど、さまざまな分野にわたるメトリクスを改善した。
付随するDIA-Benchデータセットは、可変パラメータを持つ150の多様なタスクテンプレートを含み、テキスト、PDF、コンパイルされたバイナリ、ビジュアルパズルなどの様々なフォーマットで表示される。
我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。
これらの測定結果から、単純な質問であっても、様々な形式で提示された場合、しばしば正しく答えられ、モデルの信頼性に重大なギャップがあることが判明した。
特に、GPT-4oのようなモデルは数学的な能力を過大評価する傾向があり、ChatGPT-4oは効果的なツールの使用によってより良い意思決定と性能を示した。
DIA-Benchを用いて8つの最先端の大規模言語モデル(LLM)を評価し、現在のモデルが複雑なタスクに苦しむことを示し、単純な質問であっても、しばしば予想外の低い信頼性を示すことを示した。
DIAフレームワークは、問題解決だけでなく、モデルの適応的なインテリジェンスや、自身の制限を評価する能力を評価するための新しい標準を設定している。
データセットはプロジェクトのWebサイトで公開されている。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。
これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning [0.9787137564521711]
本稿では, 意味探索, プロンプトエンジニアリング, 微調整を組み合わせることで, LLMのタスクを正確に実行する能力を大幅に向上させることができることを示す。
GPT-4のようなプロプライエタリなモデルと、Llama-2-70bのようなオープンソースのモデル、および様々な埋め込み方法を比較します。
論文 参考訳(メタデータ) (2024-04-16T03:39:16Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Testing Framework for Black-box AI Models [1.916485402892365]
本稿では,AIモデルをテストするためのエンドツーエンドの汎用フレームワークを提案する。
我々のツールは産業用AIモデルのテストに使われており、問題を明らかにするのに非常に効果的でした。
論文 参考訳(メタデータ) (2021-02-11T18:15:23Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。