論文の概要: Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning
- arxiv url: http://arxiv.org/abs/2402.01602v1
- Date: Fri, 2 Feb 2024 18:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:04:45.365531
- Title: Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning
- Title(参考訳): foundation model sherpas: 知識と推論による基盤モデルを導く
- Authors: Debarun Bhattacharjya, Junkyu Lee, Don Joven Agravante, Balaji
Ganesan, Radu Marinescu
- Abstract要約: ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
- 参考スコア(独自算出の注目度): 23.763256908202496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Foundation models (FMs) such as large language models have revolutionized the
field of AI by showing remarkable performance in various tasks. However, they
exhibit numerous limitations that prevent their broader adoption in many
real-world systems, which often require a higher bar for trustworthiness and
usability. Since FMs are trained using loss functions aimed at reconstructing
the training corpus in a self-supervised manner, there is no guarantee that the
model's output aligns with users' preferences for a specific task at hand. In
this survey paper, we propose a conceptual framework that encapsulates
different modes by which agents could interact with FMs and guide them suitably
for a set of tasks, particularly through knowledge augmentation and reasoning.
Our framework elucidates agent role categories such as updating the underlying
FM, assisting with prompting the FM, and evaluating the FM output. We also
categorize several state-of-the-art approaches into agent interaction
protocols, highlighting the nature and extent of involvement of the various
agent roles. The proposed framework provides guidance for future directions to
further realize the power of FMs in practical AI systems.
- Abstract(参考訳): 大規模言語モデルのような基礎モデル(FM)は、様々なタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
しかし、彼らは多くの現実世界のシステムで広く採用されるのを防ぐために、多くの制限を課している。
FMは,自己指導型コーパスの再構築を目的とした損失関数を用いて訓練されているため,モデルの出力が特定のタスクに対するユーザの好みと一致している保証はない。
本稿では,エージェントがFMと対話し,特に知識の増強や推論を通じて,タスクのセットに適した指導を行う,様々なモードをカプセル化する概念的枠組みを提案する。
本フレームワークは,FMの更新,FMのプロンプトの支援,FM出力の評価など,エージェントの役割のカテゴリを解明する。
また,エージェントインタラクションプロトコルに最先端のアプローチをいくつか分類し,エージェントの役割の性質と関与範囲を強調する。
提案するフレームワークは,現実的なAIシステムにおけるFMのパワーをさらに高めるための今後の方向性のガイダンスを提供する。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning [29.33199582163445]
ビジョン・ファンデーション・モデル (VFM) は、多くの下流タスクにおいて卓越した性能を示した。
それら固有の表現バイアスのため、VFMは異なる視覚タスクにまたがる利点と欠点を示す。
本稿では,VFM 委員会からの知識を適応的に蒸留し,マルチタスク学習を強化する,新規で汎用性の高い "Swiss Army Knife" (SAK) ソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:32:39Z) - Large Model for Small Data: Foundation Model for Cross-Modal RF Human Activity Recognition [7.351361666395708]
我々は、RFベースのHARシステムを強化するために、視覚ベースのFMの知識を翻訳するクロスモーダルフレームワークであるFM-Fiを紹介する。
FM-Fiは、RFエンコーダがFMの解釈力を引き継ぐことができる新しいクロスモーダルコントラストな知識蒸留機構を含んでいる。
また、FMとRFの本質的な能力を利用して、2つのモード間のアライメントを改善するために外在的な特徴を取り除いている。
論文 参考訳(メタデータ) (2024-10-13T03:43:59Z) - On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards [11.99718417371013]
本研究は、これらのFMリーダーボードが現実世界のシナリオでどのように動作するかを理解することに焦点を当てる("clainboard operations")。
5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを構築します。
次に、LBOpsで8種類のリーダーボードの匂いを識別します。
論文 参考訳(メタデータ) (2024-07-04T17:12:00Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - A Survey on Efficient Federated Learning Methods for Foundation Model Training [62.473245910234304]
フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。
Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。
FLアプリケーションに対するパラメータ効率細調整(PEFT)の利点と欠点について論じる。
論文 参考訳(メタデータ) (2024-01-09T10:22:23Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。