Fugu-MT 論文翻訳(概要): Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models

論文の概要: Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models

arxiv url: http://arxiv.org/abs/2410.13826v1
Date: Thu, 17 Oct 2024 17:51:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.091845
Title: Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models
Title（参考訳）: ファウンデーションモデルのトレードオフを理解するための未経験のスキルレベル視点
Authors: Mazda Moayeri, Vidhisha Balachandran, Varun Chandrasekaran, Safoora Yousefi, Thomas Fel, Soheil Feizi, Besmira Nushi, Neel Joshi, Vibhav Vineet,
Abstract要約: 集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
参考スコア（独自算出の注目度）: 61.467781476005435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With models getting stronger, evaluations have grown more complex, testing multiple skills in one benchmark and even in the same instance at once. However, skill-wise performance is obscured when inspecting aggregate accuracy, under-utilizing the rich signal modern benchmarks contain. We propose an automatic approach to recover the underlying skills relevant for any evaluation instance, by way of inspecting model-generated rationales. After validating the relevance of rationale-parsed skills and inferring skills for $46$k instances over $12$ benchmarks, we observe many skills to be common across benchmarks, resulting in the curation of hundreds of skill-slices (i.e. sets of instances testing a common skill). Inspecting accuracy over these slices yields novel insights on model trade-offs: e.g., compared to GPT-4o and Claude 3.5 Sonnet, on average, Gemini 1.5 Pro is $18\%$ more accurate in "computing molar mass", but $19\%$ less accurate in "applying constitutional law", despite the overall accuracies of the three models differing by a mere $0.4\%$. Furthermore, we demonstrate the practical utility of our approach by showing that insights derived from skill slice analysis can generalize to held-out instances: when routing each instance to the model strongest on the relevant skills, we see a $3\%$ accuracy improvement over our $12$ dataset corpus. Our skill-slices and framework open a new avenue in model evaluation, leveraging skill-specific analyses to unlock a more granular and actionable understanding of model capabilities.
Abstract（参考訳）: モデルがより強くなるにつれて、評価はより複雑になり、1つのベンチマークで、同時に同じインスタンスでも、複数のスキルをテストするようになりました。しかし、集約精度を検査する際には、リッチな信号現代ベンチマークの活用が不足しているため、スキルワイドのパフォーマンスが不明である。モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。合理化スキルの妥当性を検証し、12ドルのベンチマークで46ドルのインスタンスでスキルを推測した後、ベンチマーク全体で共通する多くのスキルを観察し、数百のスキルスライス(つまり、一般的なスキルをテストする一連のインスタンス)をキュレーションします。例えば、GPT-4o や Claude 3.5 Sonnet と比較すると、Gemini 1.5 Pro は「モル質量の計算」において、平均で 18 %$ であるのに対し、19 %$ は「立憲法の適用」において正確ではない。さらに、我々は、スキルスライス分析から得られた洞察が保留インスタンスに一般化できることを示し、本手法の実用性を示した。私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。

関連論文リスト

Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models [3.207886496235499]
検証可能な報酬(RLVR)に基づく強化学習で学習した推論モデルを用いて,新たな問題を解決する方法について検討する。 RLVRは、(1)pass@$k$をpass@1に圧縮し、(2)"capability gain"を介して、モデルが以前、$k$で解決できなかった新しい問題を解決することを学習する、という2つの主な方法でパフォーマンスを駆動する。
論文参考訳（メタデータ） (2025-06-16T19:03:06Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text [0.0]
本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
論文参考訳（メタデータ） (2025-01-16T18:06:22Z)
Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文参考訳（メタデータ） (2024-10-07T21:05:53Z)
Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。 k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-09-29T22:14:02Z)
Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。 RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文参考訳（メタデータ） (2024-07-18T20:23:11Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。 MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文参考訳（メタデータ） (2022-03-05T14:15:59Z)
Revisiting Model Stitching to Compare Neural Representations [8.331711958610347]
我々は、$A$のボトム層と$B$のトップ層とを、それらの間に単純なトレーニング可能な層で接続することによって形成される「スティッチドモデル」を考える。同じアーキテクチャの優れたネットワークは、非常に異なる方法で訓練されているが、性能を低下させることなく互いに縫合できることが示されています。また,(1) 以上のデータ,(2) より大きな幅,(3) 以上のトレーニング時間で学習した表現が,より弱いモデルに"プラグイン"して性能を向上させることができることを示すことによって,「もっとよい」という直感の証拠を与える。
論文参考訳（メタデータ） (2021-06-14T18:05:10Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。