Fugu-MT 論文翻訳(概要): Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning

論文の概要: Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning

arxiv url: http://arxiv.org/abs/2402.01602v1
Date: Fri, 2 Feb 2024 18:00:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 14:04:45.365531
Title: Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning
Title（参考訳）: foundation model sherpas: 知識と推論による基盤モデルを導く
Authors: Debarun Bhattacharjya, Junkyu Lee, Don Joven Agravante, Balaji Ganesan, Radu Marinescu
Abstract要約: ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。 FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
参考スコア（独自算出の注目度）: 23.763256908202496
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Foundation models (FMs) such as large language models have revolutionized the field of AI by showing remarkable performance in various tasks. However, they exhibit numerous limitations that prevent their broader adoption in many real-world systems, which often require a higher bar for trustworthiness and usability. Since FMs are trained using loss functions aimed at reconstructing the training corpus in a self-supervised manner, there is no guarantee that the model's output aligns with users' preferences for a specific task at hand. In this survey paper, we propose a conceptual framework that encapsulates different modes by which agents could interact with FMs and guide them suitably for a set of tasks, particularly through knowledge augmentation and reasoning. Our framework elucidates agent role categories such as updating the underlying FM, assisting with prompting the FM, and evaluating the FM output. We also categorize several state-of-the-art approaches into agent interaction protocols, highlighting the nature and extent of involvement of the various agent roles. The proposed framework provides guidance for future directions to further realize the power of FMs in practical AI systems.
Abstract（参考訳）: 大規模言語モデルのような基礎モデル(FM)は、様々なタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。しかし、彼らは多くの現実世界のシステムで広く採用されるのを防ぐために、多くの制限を課している。 FMは,自己指導型コーパスの再構築を目的とした損失関数を用いて訓練されているため,モデルの出力が特定のタスクに対するユーザの好みと一致している保証はない。本稿では,エージェントがFMと対話し,特に知識の増強や推論を通じて,タスクのセットに適した指導を行う,様々なモードをカプセル化する概念的枠組みを提案する。本フレームワークは,FMの更新,FMのプロンプトの支援,FM出力の評価など,エージェントの役割のカテゴリを解明する。また,エージェントインタラクションプロトコルに最先端のアプローチをいくつか分類し,エージェントの役割の性質と関与範囲を強調する。提案するフレームワークは,現実的なAIシステムにおけるFMのパワーをさらに高めるための今後の方向性のガイダンスを提供する。

関連論文リスト

Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules [76.21320451720764]
複雑なマルチモーダル質問をステップバイステップのサブクエストに分解するデータセットであるCogVisionを紹介した。探索に基づく手法を用いて,これらの機能に特化して機能的頭部として特徴付けるアテンションヘッドを同定する。分析の結果、これらの機能ヘッドは普遍的に疎結合であり、機能間の数や分布が異なり、相互作用や階層的な組織を仲介することがわかった。
論文参考訳（メタデータ） (2025-12-11T05:42:53Z)
Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。その結果,機械的記憶が体系的推論より優れていることが示唆された。本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文参考訳（メタデータ） (2025-10-01T04:29:39Z)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
Enhancing Target-unspecific Tasks through a Features Matrix [28.809451200584288]
一般知識は、目標非特異なタスクを強く推進する。そこで本稿では,対象非特定タスクにおける特徴行列(FM)モデルの拡張を目的とした新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-06T10:41:53Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models [45.12916211850169]
行動基盤モデル(BFM)は、ヒューマノイドエージェントのマルチモーダル、ヒューマンライクな制御を可能にする。タスクトークン(Task Tokens)は、BFMを柔軟性を維持しつつ、特定のタスクに効果的に調整する方法である。タスクトークンは,その一般化能力を維持しつつ,特定の制御タスクにBFMを適用する上で有望なアプローチであることを示す。
論文参考訳（メタデータ） (2025-03-28T21:28:13Z)
Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文参考訳（メタデータ） (2024-11-05T04:10:59Z)
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning [29.33199582163445]
ビジョン・ファンデーション・モデル (VFM) は、多くの下流タスクにおいて卓越した性能を示した。それら固有の表現バイアスのため、VFMは異なる視覚タスクにまたがる利点と欠点を示す。本稿では,VFM 委員会からの知識を適応的に蒸留し,マルチタスク学習を強化する,新規で汎用性の高い "Swiss Army Knife" (SAK) ソリューションを提案する。
論文参考訳（メタデータ） (2024-10-18T17:32:39Z)
Large Model for Small Data: Foundation Model for Cross-Modal RF Human Activity Recognition [7.351361666395708]
我々は、RFベースのHARシステムを強化するために、視覚ベースのFMの知識を翻訳するクロスモーダルフレームワークであるFM-Fiを紹介する。 FM-Fiは、RFエンコーダがFMの解釈力を引き継ぐことができる新しいクロスモーダルコントラストな知識蒸留機構を含んでいる。また、FMとRFの本質的な能力を利用して、2つのモード間のアライメントを改善するために外在的な特徴を取り除いている。
論文参考訳（メタデータ） (2024-10-13T03:43:59Z)
Swiss Cheese Model for AI Safety: A Taxonomy and Reference Architecture for Multi-Layered Guardrails of Foundation Model Based Agents [12.593620173835415]
Foundation Model(FM)ベースのエージェントは、さまざまなドメインにわたるアプリケーション開発に革命をもたらしている。本稿では,FMをベースとしたエージェントを対象としたランタイムガードレールの包括的分類を行い,ガードレールと設計次元の重要な品質特性を同定する。また,Swiss Cheese ModelにインスパイアされたFMエージェントのための多層型ランタイムガードレールの設計のための参照アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-08-05T03:08:51Z)
On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards [11.99718417371013]
本研究は、これらのFMリーダーボードが現実世界のシナリオでどのように動作するかを理解することに焦点を当てる("clainboard operations")。 5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを構築します。次に、LBOpsで8種類のリーダーボードの匂いを識別します。
論文参考訳（メタデータ） (2024-07-04T17:12:00Z)
On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文参考訳（メタデータ） (2024-06-14T14:37:52Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
A Survey on Efficient Federated Learning Methods for Foundation Model Training [62.473245910234304]
フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。 Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。 FLアプリケーションに対するパラメータ効率細調整(PEFT)の利点と欠点について論じる。
論文参考訳（メタデータ） (2024-01-09T10:22:23Z)
Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。