論文の概要: FETA: Towards Specializing Foundation Models for Expert Task
Applications
- arxiv url: http://arxiv.org/abs/2209.03648v1
- Date: Thu, 8 Sep 2022 08:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:08:07.934442
- Title: FETA: Towards Specializing Foundation Models for Expert Task
Applications
- Title(参考訳): FETA: エキスパート・タスク・アプリケーションのための基礎モデル
- Authors: Amit Alfassy, Assaf Arbelle, Oshri Halimi, Sivan Harary, Roei Herzig,
Eli Schwartz, Rameswar Panda, Michele Dolfi, Christoph Auer, Kate Saenko,
PeterW. J. Staar, Rogerio Feris, Leonid Karlinsky
- Abstract要約: ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
- 参考スコア(独自算出の注目度): 49.57393504125937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models (FMs) have demonstrated unprecedented capabilities
including zero-shot learning, high fidelity data synthesis, and out of domain
generalization. However, as we show in this paper, FMs still have poor
out-of-the-box performance on expert tasks (e.g. retrieval of car manuals
technical illustrations from language queries), data for which is either unseen
or belonging to a long-tail part of the data distribution of the huge datasets
used for FM pre-training. This underlines the necessity to explicitly evaluate
and finetune FMs on such expert tasks, arguably ones that appear the most in
practical real-world applications. In this paper, we propose a first of its
kind FETA benchmark built around the task of teaching FMs to understand
technical documentation, via learning to match their graphical illustrations to
corresponding language descriptions. Our FETA benchmark focuses on
text-to-image and image-to-text retrieval in public car manuals and sales
catalogue brochures. FETA is equipped with a procedure for completely automatic
annotation extraction (code would be released upon acceptance), allowing easy
extension of FETA to more documentation types and application domains in the
future. Our automatic annotation leads to an automated performance metric shown
to be consistent with metrics computed on human-curated annotations (also
released). We provide multiple baselines and analysis of popular FMs on FETA
leading to several interesting findings that we believe would be very valuable
to the FM community, paving the way towards real-world application of FMs for
practical expert tasks currently 'overlooked' by standard benchmarks focusing
on common objects.
- Abstract(参考訳): ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
しかし、本稿で示すように、fmプリトレーニングに使用される巨大なデータセットのデータ分散の、未認識またはロングテール部分に属する、専門家のタスク(例えば、自動車マニュアルの言語クエリからのテクニカルイラストの検索)において、fmsは依然として不十分な性能を保っている。
このことは、このような専門家のタスクに対して、FMを明示的に評価し、微調整する必要性を浮き彫りにしている。
本稿では,FMに技術資料の理解を指導する上で,その図形図形と対応する言語記述とを一致させる学習を通じて,その第1のFETAベンチマークを提案する。
fetaベンチマークでは,公共自動車マニュアルや販売カタログ用パンフレットのテキスト対画像検索と画像対テキスト検索に焦点を当てた。
FETAは、完全に自動的なアノテーション抽出(コードが受け入れられるとコードがリリースされる)の手順を備えており、将来FETAのドキュメントタイプやアプリケーションドメインへの拡張が容易になる。
私たちの自動アノテーションは、人為的なアノテーション(リリース)で計算されたメトリクスと一致していることを示す自動パフォーマンスメトリクスにつながります。
我々は、FMコミュニティにとって非常に価値があると信じているいくつかの興味深い発見を導き、一般的なオブジェクトに焦点を当てた標準ベンチマークによって現在見過ごされている実用的な専門家タスクにFMの現実的な応用に向けた道を開いた。
関連論文リスト
- Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Leveraging Contextual Information for Effective Entity Salience
Detection [22.221458947131396]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [90.54934154766585]
我々は、慎重に設計された実験を用いて、既存の基礎モデル映像理解能力を評価する。
一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided
Visual Foundation Models [5.360103006279672]
本研究では,従来のシナリオと画像の相違が顕著なリモートセンシング領域に焦点を当てた。
テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセグメンテーションタスクを容易にするために,複数の基盤モデルを活用するパイプラインを開発した。
パイプラインは、広く使われているリモートセンシングデータセットをベンチマークし、その有効性を示すための予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Multi-Modal Fusion by Meta-Initialization [0.0]
モデル非依存メタラーニングアルゴリズム(MAML)の拡張を提案する。
これにより、モデルが補助情報とタスクエクスペリエンスを使って適応することが可能になる。
FuMIは、MAMLのようなユニモーダルベースラインを数発で上回っている。
論文 参考訳(メタデータ) (2022-10-10T17:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。