論文の概要: FEET: A Framework for Evaluating Embedding Techniques
- arxiv url: http://arxiv.org/abs/2411.01322v1
- Date: Sat, 02 Nov 2024 18:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:08.182436
- Title: FEET: A Framework for Evaluating Embedding Techniques
- Title(参考訳): FEET: 埋め込み技術を評価するフレームワーク
- Authors: Simon A. Lee, John Lee, Jeffrey N. Chiang,
- Abstract要約: FEETは、基礎モデルの開発とベンチマークのガイドとして設計された標準化されたプロトコルである。
フリーズ埋め込み、数発の埋め込み、完全に微調整された埋め込みの3つのユースケースを定義します。
- 参考スコア(独自算出の注目度): 0.5837446811360741
- License:
- Abstract: In this study, we introduce FEET, a standardized protocol designed to guide the development and benchmarking of foundation models. While numerous benchmark datasets exist for evaluating these models, we propose a structured evaluation protocol across three distinct scenarios to gain a comprehensive understanding of their practical performance. We define three primary use cases: frozen embeddings, few-shot embeddings, and fully fine-tuned embeddings. Each scenario is detailed and illustrated through two case studies: one in sentiment analysis and another in the medical domain, demonstrating how these evaluations provide a thorough assessment of foundation models' effectiveness in research applications. We recommend this protocol as a standard for future research aimed at advancing representation learning models.
- Abstract(参考訳): 本研究では,基礎モデルの開発とベンチマークの指針となる標準化されたプロトコルであるFEETを紹介する。
これらのモデルを評価するためのベンチマークデータセットは多数存在するが,本論文では3つの異なるシナリオにまたがって構造化された評価プロトコルを提案し,それらの実践的性能を包括的に理解する。
フリーズ埋め込み、数発の埋め込み、完全に微調整された埋め込みの3つのユースケースを定義します。
それぞれのシナリオは、感情分析と医学領域における2つのケーススタディを通じて詳細に説明され、これらの評価が基礎モデルの有効性を研究応用においてどのように徹底的に評価するかを実証する。
我々はこのプロトコルを,表現学習モデルの発展を目的とした将来の研究の標準として推奨する。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation [46.59416831869014]
本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。
原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。
広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
論文 参考訳(メタデータ) (2024-08-06T16:28:30Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Establishing a Unified Evaluation Framework for Human Motion Generation: A Comparative Analysis of Metrics [6.708543240320757]
本稿では,人体動作生成のための8つの評価指標について詳細に検討する。
我々は一貫したモデル比較を容易にするため、統一的な評価設定を通じて標準化されたプラクティスを提案する。
変形する多様性を分析して時間歪みの多様性を評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-13T12:10:57Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Few-shot Event Detection: An Empirical Study and a Unified View [28.893154182743643]
イベント検出(ED)は広く研究されているが、これは顕著な相違をもたらす。
本稿では,EDモデルの統一的なビューと,より優れた統一されたベースラインについて,徹底的な実証研究を行う。
論文 参考訳(メタデータ) (2023-05-03T05:31:48Z) - Three Steps to Multimodal Trajectory Prediction: Modality Clustering,
Classification and Synthesis [54.249502356251085]
我々は新しい予測フレームワークと共に新しい洞察を示す。
提案手法は、社会情報や地図情報を導入することなく、最先端の作品を超える。
論文 参考訳(メタデータ) (2021-03-14T06:21:03Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。