Fugu-MT 論文翻訳(概要): Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence

論文の概要: Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence

arxiv url: http://arxiv.org/abs/2410.15490v2
Date: Tue, 22 Oct 2024 07:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.141215
Title: Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence
Title（参考訳）: ダイナミックインテリジェンスアセスメント:モデル信頼性に着目したAGIへの道のLLMのベンチマーク
Authors: Norbert Tihanyi, Tamas Bisztray, Richard A. Dubniczky, Rebeka Toth, Bertalan Borsos, Bilel Cherif, Mohamed Amine Ferrag, Lajos Muzsai, Ridhi Jain, Ryan Marinelli, Lucas C. Cordeiro, Merouane Debbah,
Abstract要約: 我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。付随するDIA-Benchデータセットは、テキスト、PDF、コンパイルされたバイナリ、視覚パズルなど、さまざまなフォーマットで表示される。
参考スコア（独自算出の注目度）: 3.566250952750758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As machine intelligence evolves, the need to test and compare the problem-solving abilities of different AI models grows. However, current benchmarks are often overly simplistic, allowing models to perform uniformly well, making it difficult to distinguish their capabilities. Additionally, benchmarks typically rely on static question-answer pairs, which models might memorize or guess. To address these limitations, we introduce the Dynamic Intelligence Assessment (DIA), a novel methodology for testing AI models using dynamic question templates and improved metrics across multiple disciplines such as mathematics, cryptography, cybersecurity, and computer science. The accompanying DIA-Bench dataset, which includes 150 diverse and challenging task templates with mutable parameters, is presented in various formats such as text, PDFs, compiled binaries, and visual puzzles. Our framework introduces four new metrics to assess a model's reliability and confidence across multiple attempts. These metrics revealed that even simple questions are frequently answered incorrectly when posed in varying forms, highlighting significant gaps in models' reliability. Notably, models like GPT-4o tended to overestimate their mathematical abilities, while ChatGPT-4o demonstrated better decision-making and performance through effective tool usage. We evaluated eight state-of-the-art large language models (LLMs) using DIA-Bench, showing that current models struggle with complex tasks and often display unexpectedly low confidence, even with simpler questions. The DIA framework sets a new standard for assessing not only problem-solving but also a model's adaptive intelligence and ability to assess its own limitations. The dataset is publicly available on our project's website.
Abstract（参考訳）: マシンインテリジェンスが進化するにつれて、さまざまなAIモデルの問題解決能力のテストと比較の必要性が高まっている。しかし、現在のベンチマークは、しばしば過度に単純化されており、モデルが一様に機能するので、それらの能力を区別することは困難である。さらに、ベンチマークは静的な問合せペアに依存しており、モデルが記憶したり推測したりすることもある。この制限に対処するために、動的質問テンプレートを使用してAIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を導入し、数学、暗号、サイバーセキュリティ、コンピュータサイエンスなど、さまざまな分野にわたるメトリクスを改善した。付随するDIA-Benchデータセットは、可変パラメータを持つ150の多様なタスクテンプレートを含み、テキスト、PDF、コンパイルされたバイナリ、ビジュアルパズルなどの様々なフォーマットで表示される。我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。これらの測定結果から、単純な質問であっても、様々な形式で提示された場合、しばしば正しく答えられ、モデルの信頼性に重大なギャップがあることが判明した。特に、GPT-4oのようなモデルは数学的な能力を過大評価する傾向があり、ChatGPT-4oは効果的なツールの使用によってより良い意思決定と性能を示した。 DIA-Benchを用いて8つの最先端の大規模言語モデル(LLM)を評価し、現在のモデルが複雑なタスクに苦しむことを示し、単純な質問であっても、しばしば予想外の低い信頼性を示すことを示した。 DIAフレームワークは、問題解決だけでなく、モデルの適応的なインテリジェンスや、自身の制限を評価する能力を評価するための新しい標準を設定している。データセットはプロジェクトのWebサイトで公開されている。

関連論文リスト

WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-08-02T07:45:12Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning [0.9787137564521711]
本稿では, 意味探索, プロンプトエンジニアリング, 微調整を組み合わせることで, LLMのタスクを正確に実行する能力を大幅に向上させることができることを示す。 GPT-4のようなプロプライエタリなモデルと、Llama-2-70bのようなオープンソースのモデル、および様々な埋め込み方法を比較します。
論文参考訳（メタデータ） (2024-04-16T03:39:16Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)
Beyond Accuracy: A Consolidated Tool for Visual Question Answering Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文参考訳（メタデータ） (2021-10-11T11:08:35Z)
Testing Framework for Black-box AI Models [1.916485402892365]
本稿では,AIモデルをテストするためのエンドツーエンドの汎用フレームワークを提案する。我々のツールは産業用AIモデルのテストに使われており、問題を明らかにするのに非常に効果的でした。
論文参考訳（メタデータ） (2021-02-11T18:15:23Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。