論文の概要: Benchmarking Foundation Models on Exceptional Cases: Dataset Creation and Validation
- arxiv url: http://arxiv.org/abs/2410.18001v2
- Date: Thu, 05 Dec 2024 11:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:34.378682
- Title: Benchmarking Foundation Models on Exceptional Cases: Dataset Creation and Validation
- Title(参考訳): 例外ケースに関するベンチマーク基礎モデル:データセットの作成と検証
- Authors: Suho Kang, Jungyang Park, Joonseo Ha, SoMin Kim, JinHyeong Kim, Subeen Park, Kyungwoo Song,
- Abstract要約: 本稿では, グラフィックノベル, 書道, ニュース記事, 歌詞など, 複数のモダリティにまたがるFM評価のための新しいデータセットを開発する。
これには、例えば分類、文字認識、トークン予測、テキスト生成といったタスクが含まれる。
また,性能向上のため,Chain-of-Few(CoT)やCoT+Thought-Shotといった迅速な技術も提案する。
- 参考スコア(独自算出の注目度): 11.562935582384098
- License:
- Abstract: Foundation models (FMs) have achieved significant success across various tasks, leading to research on benchmarks for reasoning abilities. However, there is a lack of studies on FMs performance in exceptional scenarios, which we define as out-of-distribution (OOD) reasoning tasks. This paper is the first to address these cases, developing a novel dataset for evaluation of FMs across multiple modalities, including graphic novels, calligraphy, news articles, and lyrics. It includes tasks for instance classification, character recognition, token prediction, and text generation. The paper also proposes prompt engineering techniques like Chain-of-Thought (CoT) and CoT+Few-Shot to enhance performance. Validation of FMs using various methods revealed improvements. The code repository is accessible at: https://github.com/MLAI-Yonsei/ExceptionalBenchmark
- Abstract(参考訳): ファンデーションモデル(FM)は様々なタスクで大きな成功を収め、推論能力のベンチマークの研究に繋がった。
しかし、例外的なシナリオにおけるFMの性能に関する研究は欠如しており、ここではアウト・オブ・ディストリビューション(OOD)推論タスクと定義する。
本稿では,これらの事例に最初に対処し,グラフィックノベル,書跡,ニュース記事,歌詞など,複数のモードにわたるFM評価のための新しいデータセットを開発する。
これには、例えば分類、文字認識、トークン予測、テキスト生成といったタスクが含まれる。
また,性能向上のため,Chain-of-Thought(CoT)やCoT+Few-Shotといった迅速なエンジニアリング手法を提案する。
様々な手法を用いてFMの検証を行った結果,改善が認められた。
コードリポジトリは、https://github.com/MLAI-Yonsei/ExceptionalBenchmarkでアクセスできます。
関連論文リスト
- Exploring Few-Shot Defect Segmentation in General Industrial Scenarios with Metric Learning and Vision Foundation Models [8.96299670050608]
本稿では,多種多様な欠陥を有する幅広い産業製品において,FSS(数ショットセマンティックセマンティックセマンティックセマンティクス)を探索することを目的とする。
メタラーニングに基づくものやビジョンファウンデーションモデル(VFM)に基づくものなど、メトリックラーニングに基づくFSS手法を徹底的に検討する。
特徴マッチングに基づく新しい効率的なFDS手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T10:13:34Z) - Foundation Model or Finetune? Evaluation of few-shot semantic segmentation for river pollution [16.272314073324626]
ファンデーションモデル(FM)はAIの研究の一般的なトピックである。
本研究では,FMの性能を,セマンティックセグメンテーションのタスクにおける微調整された教師付きモデルと比較する。
微調整されたモデルは、データが不足している場合でも、テスト対象のFMより一貫して優れています。
論文 参考訳(メタデータ) (2024-09-05T17:59:32Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。