Fugu-MT 論文翻訳(概要): Eureka: Evaluating and Understanding Large Foundation Models

論文の概要: Eureka: Evaluating and Understanding Large Foundation Models

arxiv url: http://arxiv.org/abs/2409.10566v1
Date: Fri, 13 Sep 2024 18:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 21:09:36.342172
Title: Eureka: Evaluating and Understanding Large Foundation Models
Title（参考訳）: Eureka: 大規模な基盤モデルの評価と理解
Authors: Vidhisha Balachandran, Jingya Chen, Neel Joshi, Besmira Nushi, Hamid Palangi, Eduardo Salinas, Vibhav Vineet, James Woffinden-Luey, Safoora Yousefi,
Abstract要約: Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
参考スコア（独自算出の注目度）: 23.020996995362104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rigorous and reproducible evaluation is critical for assessing the state of the art and for guiding scientific advances in Artificial Intelligence. Evaluation is challenging in practice due to several reasons, including benchmark saturation, lack of transparency in methods used for measurement, development challenges in extracting measurements for generative tasks, and, more generally, the extensive number of capabilities required for a well-rounded comparison across models. We make three contributions to alleviate the above challenges. First, we present Eureka, an open-source framework for standardizing evaluations of large foundation models beyond single-score reporting and rankings. Second, we introduce Eureka-Bench as an extensible collection of benchmarks testing capabilities that (i) are still challenging for state-of-the-art models and (ii) represent fundamental but overlooked language and multimodal capabilities. The inherent space for improvement in non-saturated benchmarks enables us to discover meaningful differences between models at a capability level. Third, using Eureka, we conduct an analysis of 12 state-of-the-art models, providing in-depth insights into failure understanding and model comparison, which can be leveraged to plan targeted improvements. In contrast to recent trends in reports and leaderboards showing absolute rankings and claims for one model or another to be the best, our analysis shows that there is no such best model. Different models have different strengths, but there are models that appear more often than others as best performers for some capabilities. Despite the recent improvements, current models still struggle with several fundamental capabilities including detailed image understanding, benefiting from multimodal input when available rather than fully relying on language, factuality and grounding for information retrieval, and over refusals.
Abstract（参考訳）: 厳密で再現可能な評価は、最先端の評価と人工知能の科学的進歩の導出に不可欠である。評価は、ベンチマーク飽和、測定に使用される方法の透明性の欠如、生成タスクの測定を抽出する際の開発上の課題、そしてより一般的には、モデル間の十分に包括された比較に必要な機能の多さなど、実際は困難である。上記の課題を軽減するために、3つのコントリビューションを行います。まず、シングルスコアレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するオープンソースのフレームワークであるEurekaを紹介する。次に、Eureka-Benchをベンチマークテスト機能の拡張可能なコレクションとして紹介する。 (i)まだ最先端のモデルには挑戦的です。 (ii)基本的だが見過ごされている言語とマルチモーダルの能力を表す。非飽和ベンチマークにおける改善のための固有の空間は、機能レベルでのモデル間の有意義な差異を発見することができる。第3に、Eurekaを用いて、12の最先端モデルを分析し、障害理解とモデル比較に関する詳細な洞察を提供し、目標とする改善計画に活用する。レポートやリーダーボードの最近の傾向は、一つのモデルがベストであることを示す絶対的なランク付けとクレームを示すのとは対照的に、我々の分析では、そのような最高のモデルがないことを示している。異なるモデルには異なる長所があるが、いくつかの機能のための最高のパフォーマーとして、他のモデルよりも頻繁に現れるモデルがある。最近の改良にもかかわらず、現在のモデルは、詳細な画像理解、言語に完全に依存するのではなく、マルチモーダル入力による恩恵、情報検索の事実と根拠、拒絶など、いくつかの基本的な機能に苦戦している。

関連論文リスト

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文参考訳（メタデータ） (2026-03-03T18:36:16Z)
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。 ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-12-04T18:59:52Z)
A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文参考訳（メタデータ） (2025-10-27T17:57:33Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文参考訳（メタデータ） (2024-02-06T06:30:34Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文参考訳（メタデータ） (2023-06-07T20:12:29Z)
Operationalizing Specifications, In Addition to Test Sets for Evaluating Constrained Generative Models [17.914521288548844]
生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
論文参考訳（メタデータ） (2022-11-19T06:39:43Z)
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文参考訳（メタデータ） (2022-10-21T16:07:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。