論文の概要: FETA: Towards Specializing Foundation Models for Expert Task
Applications
- arxiv url: http://arxiv.org/abs/2209.03648v1
- Date: Thu, 8 Sep 2022 08:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:08:07.934442
- Title: FETA: Towards Specializing Foundation Models for Expert Task
Applications
- Title(参考訳): FETA: エキスパート・タスク・アプリケーションのための基礎モデル
- Authors: Amit Alfassy, Assaf Arbelle, Oshri Halimi, Sivan Harary, Roei Herzig,
Eli Schwartz, Rameswar Panda, Michele Dolfi, Christoph Auer, Kate Saenko,
PeterW. J. Staar, Rogerio Feris, Leonid Karlinsky
- Abstract要約: ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
- 参考スコア(独自算出の注目度): 49.57393504125937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models (FMs) have demonstrated unprecedented capabilities
including zero-shot learning, high fidelity data synthesis, and out of domain
generalization. However, as we show in this paper, FMs still have poor
out-of-the-box performance on expert tasks (e.g. retrieval of car manuals
technical illustrations from language queries), data for which is either unseen
or belonging to a long-tail part of the data distribution of the huge datasets
used for FM pre-training. This underlines the necessity to explicitly evaluate
and finetune FMs on such expert tasks, arguably ones that appear the most in
practical real-world applications. In this paper, we propose a first of its
kind FETA benchmark built around the task of teaching FMs to understand
technical documentation, via learning to match their graphical illustrations to
corresponding language descriptions. Our FETA benchmark focuses on
text-to-image and image-to-text retrieval in public car manuals and sales
catalogue brochures. FETA is equipped with a procedure for completely automatic
annotation extraction (code would be released upon acceptance), allowing easy
extension of FETA to more documentation types and application domains in the
future. Our automatic annotation leads to an automated performance metric shown
to be consistent with metrics computed on human-curated annotations (also
released). We provide multiple baselines and analysis of popular FMs on FETA
leading to several interesting findings that we believe would be very valuable
to the FM community, paving the way towards real-world application of FMs for
practical expert tasks currently 'overlooked' by standard benchmarks focusing
on common objects.
- Abstract(参考訳): ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
しかし、本稿で示すように、fmプリトレーニングに使用される巨大なデータセットのデータ分散の、未認識またはロングテール部分に属する、専門家のタスク(例えば、自動車マニュアルの言語クエリからのテクニカルイラストの検索)において、fmsは依然として不十分な性能を保っている。
このことは、このような専門家のタスクに対して、FMを明示的に評価し、微調整する必要性を浮き彫りにしている。
本稿では,FMに技術資料の理解を指導する上で,その図形図形と対応する言語記述とを一致させる学習を通じて,その第1のFETAベンチマークを提案する。
fetaベンチマークでは,公共自動車マニュアルや販売カタログ用パンフレットのテキスト対画像検索と画像対テキスト検索に焦点を当てた。
FETAは、完全に自動的なアノテーション抽出(コードが受け入れられるとコードがリリースされる)の手順を備えており、将来FETAのドキュメントタイプやアプリケーションドメインへの拡張が容易になる。
私たちの自動アノテーションは、人為的なアノテーション(リリース)で計算されたメトリクスと一致していることを示す自動パフォーマンスメトリクスにつながります。
我々は、FMコミュニティにとって非常に価値があると信じているいくつかの興味深い発見を導き、一般的なオブジェクトに焦点を当てた標準ベンチマークによって現在見過ごされている実用的な専門家タスクにFMの現実的な応用に向けた道を開いた。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Benchmarking Foundation Models on Exceptional Cases: Dataset Creation and Validation [11.562935582384098]
本稿では, グラフィックノベル, 書道, ニュース記事, 歌詞など, 複数のモダリティにまたがるFM評価のための新しいデータセットを開発する。
これには、例えば分類、文字認識、トークン予測、テキスト生成といったタスクが含まれる。
また,性能向上のため,Chain-of-Few(CoT)やCoT+Thought-Shotといった迅速な技術も提案する。
論文 参考訳(メタデータ) (2024-10-23T16:24:23Z) - Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models [11.993910471523073]
我々は大手テクノロジー企業から155 FM4SEと997 SE4FMのブログ記事を分析した。
我々は、コード生成が最も顕著なFM4SEタスクであるのに対して、FMは他の多くのSEアクティビティに活用されていることを観察した。
クラウドのデプロイに重点を置いているが、FMを圧縮し、小さなデバイスにデプロイすることへの関心が高まっている。
論文 参考訳(メタデータ) (2024-10-11T17:27:04Z) - AutoFAIR : Automatic Data FAIRification via Machine Reading [28.683653852643015]
本稿では,データFAIRnessを自動的に向上するアーキテクチャであるAutoFAIRを提案する。
マシン実行可能なアクションをガイドするために、各データとメタデータ操作を、特定のFAIRインジケータと整合させます。
データのファインダビリティ、アクセシビリティ、相互運用性、再利用性の大幅な改善を観察する。
論文 参考訳(メタデータ) (2024-08-07T17:36:58Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。