Fugu-MT 論文翻訳(概要): Law of the Weakest Link: Cross Capabilities of Large Language Models

論文の概要: Law of the Weakest Link: Cross Capabilities of Large Language Models

arxiv url: http://arxiv.org/abs/2409.19951v2
Date: Wed, 2 Oct 2024 22:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 16:37:45.627625
Title: Law of the Weakest Link: Cross Capabilities of Large Language Models
Title（参考訳）: ウェイクストリンクの法則:大規模言語モデルのクロス能力
Authors: Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten,
Abstract要約: 我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
参考スコア（独自算出の注目度）: 102.91861246827797
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.
Abstract（参考訳）: LLM(Large Language Models)の開発と評価は、主に個々の機能に焦点を当てている。しかし、これは、現実世界のタスクにしばしば必要とされる様々なタイプの専門知識をまたいだ複数の能力の交差を見落としている。この概念を体系的に探求するために、まず最初に7つのコア個別能力を定義し、それらを組み合わせて7つの共通クロス能力を形成し、それぞれが手動で構築された分類によって支持される。これらの定義に基づいて、私たちはCrossEvalを紹介します。これは1,400の人間アノテーション付きプロンプトと、個々のプロンプトとクロス能力のための100のプロンプトからなるベンチマークです。信頼性の高い評価を行うため、専門家アノテータによる4,200モデル応答の評価を行い、8,400人の評価を収集し、詳細な説明を行い、参照例として機能させる。以上の結果から,現在のLCMは,静的評価と機能強化の両面において,最も弱いコンポーネントによってクロスキャパビリティ性能が著しく制約される「ウェイクストリンクの法則」を常に示していることが明らかとなった。具体的には、17モデルの58のクロスキャパビリティスコアのうち38のスコアは、すべての個々の能力よりも低いが、20のスコアは、強みと弱さの間にあるが、より弱い能力に近い。これらの結果から, クロスキャパビリティタスクにおけるLCMの低性能が強調され, より弱い能力の識別と改善が, 複雑な多次元シナリオにおける性能を最適化する上で重要な課題となっている。

関連論文リスト

IQ Test for LLMs: An Evaluation Framework for Uncovering Core Skills in LLMs [27.291294878333765]
本稿では,因子分析を用いて,ベンチマーク間での潜在スキルの駆動性能を推定する新しい評価パラダイムを提案する。これらの洞察を、冗長なタスクを識別し、モデル選択を支援し、各潜伏するスキルに沿ってプロファイルモデルをプロファイルする実践的なツールに変換する。
論文参考訳（メタデータ） (2025-07-27T10:11:16Z)
Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文参考訳（メタデータ） (2025-06-01T08:26:34Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers [10.311462547308823]
この研究は、科学論文からのクロスソース情報を用いた推論のためのビジョンランゲージモデルの能力を評価するために設計されたベンチマークであるMMCRを提示する。 18のVLMによる実験では、既存のモデルに対して、クロスソース推論が重大な課題となることが示されている。
論文参考訳（メタデータ） (2025-03-21T05:02:20Z)
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、視覚的推論問題4,776の大規模トレーニングセットと、8つの異なる推論パラダイムにまたがる2,710の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。近年の大規模推論モデルの増加にインスパイアされたベースラインとして,検証可能な報酬関数を用いた強化学習によってトレーニングされたマルチモーダル推論モデルもリリースした。
論文参考訳（メタデータ） (2025-02-02T07:12:03Z)
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs [9.644229985340033]
我々は,大規模言語モデル(LLM)を評価する先駆的ベンチマークであるMultiChallengeを紹介した。我々は,現在の人間とLLMの対話において一般的で現実的なマルチターン会話における課題の4つのカテゴリを識別する。既存のマルチターン評価ベンチマークでほぼ完全なスコアを得たにもかかわらず、すべてのフロンティアモデルはMultiChallengeで50%未満の精度を持つ。
論文参考訳（メタデータ） (2025-01-29T03:29:24Z)
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文参考訳（メタデータ） (2025-01-10T18:59:51Z)
AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文参考訳（メタデータ） (2025-01-03T23:03:24Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [21.079199282600907]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文参考訳（メタデータ） (2024-11-26T08:21:24Z)
Evaluating and Advancing Multimodal Large Language Models in Ability Lens [30.083110119139793]
textbfAbilityLensは、6つの重要な知覚能力にまたがるMLLMを評価するために設計された統一ベンチマークである。現在のモデルの長所と短所を特定し、安定性のパターンを強調し、オープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにします。また、早期訓練段階から最高の能力チェックポイントを組み合わせ、能力衝突による性能低下を効果的に軽減する、簡易な能力特異的モデルマージ手法を設計する。
論文参考訳（メタデータ） (2024-11-22T04:41:20Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文参考訳（メタデータ） (2024-06-20T09:27:33Z)
GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。 GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文参考訳（メタデータ） (2024-04-05T17:36:26Z)
Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文参考訳（メタデータ） (2024-02-06T06:30:34Z)
PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。 PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-01-13T13:46:14Z)
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文参考訳（メタデータ） (2023-11-30T17:50:47Z)
Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文参考訳（メタデータ） (2023-08-15T11:08:30Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。