Fugu-MT 論文翻訳(概要): Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

論文の概要: Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

arxiv url: http://arxiv.org/abs/2401.02987v4
Date: Wed, 14 Feb 2024 19:05:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 18:39:04.972368
Title: Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach
Title（参考訳）: トレーニング済みのモデルは改善されましたか? マルチヘッド後部アプローチ
Authors: Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang and Wei Zhang
Abstract要約: 我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
参考スコア（独自算出の注目度）: 25.927323251675386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of pre-trained models has significantly impacted Natural Language Processing (NLP) and Computer Vision to relational datasets. Traditionally, these models are assessed through fine-tuned downstream tasks. However, this raises the question of how to evaluate these models more efficiently and more effectively. In this study, we explore a novel approach where we leverage the meta-features associated with each entity as a source of worldly knowledge and employ entity representations from the models. We propose using the consistency between these representations and the meta-features as a metric for evaluating pre-trained models. Our method's effectiveness is demonstrated across various domains, including models with relational datasets, large language models and image models.
Abstract（参考訳）: 事前訓練されたモデルの出現は、自然言語処理(NLP)とコンピュータビジョンを関係データセットに大きく影響した。伝統的に、これらのモデルは微調整された下流タスクによって評価される。しかし、このことはこれらのモデルをより効率的に効率的に評価する方法の疑問を提起する。本研究では、各エンティティに関連するメタ特徴を世界的知識の源として活用し、モデルからエンティティ表現を採用する新しいアプローチを検討する。本稿では,これらの表現とメタ特徴の一貫性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。

関連論文リスト

LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文参考訳（メタデータ） (2025-12-26T11:11:25Z)
Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning [16.04558746520946]
強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
論文参考訳（メタデータ） (2025-07-09T18:13:52Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Rethinking Weight-Averaged Model-merging [15.2881959315021]
モデルマージはディープラーニングにおける強力なアプローチとして現れ、トレーニングなしでモデルパフォーマンスを向上させることができる。この手法を3つの新しい視点から検討し、なぜ、平均的なモデルマージがどのように機能するかについてより深い知見を提供する。私たちの発見は、平均的なモデルマージの"ブラックボックス"に光を当て、貴重な洞察と実践的なレコメンデーションを提供しました。
論文参考訳（メタデータ） (2024-11-14T08:02:14Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。 LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文参考訳（メタデータ） (2024-05-02T02:20:12Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Model Provenance via Model DNA [23.885185988451667]
本稿では,機械学習モデルの特徴を表現した新しいモデルDNAについて紹介する。本研究では,対象モデルの事前学習モデルであるかどうかを識別できるモデル証明同定のための効率的なフレームワークを開発する。
論文参考訳（メタデータ） (2023-08-04T03:46:41Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。