Fugu-MT 論文翻訳(概要): Predictable Emergent Abilities of LLMs: Proxy Tasks Are All You Need

論文の概要: Predictable Emergent Abilities of LLMs: Proxy Tasks Are All You Need

arxiv url: http://arxiv.org/abs/2412.07111v1
Date: Tue, 10 Dec 2024 01:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.188581
Title: Predictable Emergent Abilities of LLMs: Proxy Tasks Are All You Need
Title（参考訳）: LLMの予測可能な創発能力:プロキシタスクがすべて必要
Authors: Bo-Wen Zhang, Yan Yan, Boxiang Yang, Yifei Xue, Guang Liu,
Abstract要約: 本稿では,プロキシタスクを活用して創発的能力を予測する手法を提案する。ツール利用能力に関するケーススタディでは,予測性能と実性能との間に強い相関関係が認められた。
参考スコア（独自算出の注目度）: 9.660067334665792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While scaling laws optimize training configurations for large language models (LLMs) through experiments on smaller or early-stage models, they fail to predict emergent abilities due to the absence of such capabilities in these models. To address this, we propose a method that predicts emergent abilities by leveraging proxy tasks. We begin by establishing relevance metrics between the target task and candidate tasks based on performance differences across multiple models. These candidate tasks are then validated for robustness with small model ensembles, leading to the selection of the most appropriate proxy tasks. The predicted performance on the target task is then derived by integrating the evaluation results of these proxies. In a case study on tool utilization capabilities, our method demonstrated a strong correlation between predicted and actual performance, confirming its effectiveness.
Abstract（参考訳）: スケーリング法則は、小規模または初期モデルの実験を通じて、大規模言語モデル(LLM)のトレーニング設定を最適化するが、これらのモデルにそのような機能が欠如しているため、創発的能力の予測には失敗する。そこで本研究では,プロキシタスクを活用して創発的能力を予測する手法を提案する。まず、複数のモデル間での性能差に基づいて、対象タスクと候補タスク間の関連指標を確立することから始める。これらの候補タスクは、小さなモデルのアンサンブルで堅牢性を検証することで、最も適切なプロキシタスクの選択につながる。次に、これらのプロキシの評価結果を統合することにより、目標タスクの予測性能を導出する。ツール利用能力に関するケーススタディでは,予測性能と実性能の相関性を強く示し,その有効性を確認した。

関連論文リスト

Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文参考訳（メタデータ） (2026-02-01T17:29:43Z)
Leveraging In-Context Learning for Language Model Agents [51.2996117207114]
インコンテキスト学習(ICL)と動的に選択されたデモは、大規模言語モデル(LLM)の柔軟性と、トレーニングデータを活用してパフォーマンスを向上させる能力を組み合わせたものだ。実演における類似タスクの軌道選択は, LLMエージェントの性能, 信頼性, 堅牢性, 効率を著しく向上させることを示す。より大規模なモデル(アノテーションフェーズ)から得られた実演により、より小さなモデルも改善され、ICLエージェントはよりコストのかかる訓練されたエージェントと競合する可能性がある。
論文参考訳（メタデータ） (2025-06-16T05:37:49Z)
Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。 Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T09:46:50Z)
Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [32.04523360747506]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文参考訳（メタデータ） (2025-04-16T21:19:09Z)
Model Predictive Task Sampling for Efficient and Robust Adaptation [57.414812940406996]
本稿では,タスク空間と適応リスク分布をブリッジするフレームワークであるモデル予測タスクサンプリング(MPTS)を紹介する。 MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。 MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文参考訳（メタデータ） (2025-01-19T13:14:53Z)
Revisiting Weight Averaging for Model Merging [16.503826062785773]
モデルマージは、個別に調整されたモデルのパラメータを追加のトレーニングなしで組み合わせることで、マルチタスク学習者を構築することを目的としている。ウェイト平均化は、ウェイト平均化自身を中心としたタスクベクトルを暗黙的に誘導する。これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
論文参考訳（メタデータ） (2024-12-11T06:29:20Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models [9.710960283117771]
ProxyLMは、多言語タスクでプロキシモデルを使用してLMパフォーマンスを予測するフレームワークである。我々の手法は、事前学習されたLMにおける未確認言語への適応性を示し、ルート平均二乗誤差(RMSE)によって測定された最先端性能を1.89倍に向上させる。このフレームワークはモデル選択を合理化し、広範囲の計算資源を使わずに効率的なデプロイメントと反復的なLM拡張を可能にする。
論文参考訳（メタデータ） (2024-06-13T17:15:33Z)
Building a Winning Team: Selecting Source Model Ensembles using a Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文参考訳（メタデータ） (2023-09-05T17:57:31Z)
Leaving the Nest: Going Beyond Local Loss Functions for Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文参考訳（メタデータ） (2023-05-26T11:17:45Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。この利点を実用的に活用できるメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-30T12:02:14Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。 AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文参考訳（メタデータ） (2020-06-16T02:21:49Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。