論文の概要: Enhancing Target-unspecific Tasks through a Features Matrix
- arxiv url: http://arxiv.org/abs/2505.03414v5
- Date: Tue, 03 Jun 2025 04:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.611116
- Title: Enhancing Target-unspecific Tasks through a Features Matrix
- Title(参考訳): 特徴行列による目標非特異タスクの強化
- Authors: Fangming Cui, Yonggang Zhang, Xuan Wang, Xinmei Tian, Jun Yu,
- Abstract要約: 一般知識は、目標非特異なタスクを強く推進する。
そこで本稿では,対象非特定タスクにおける特徴行列(FM)モデルの拡張を目的とした新しい手法を提案する。
- 参考スコア(独自算出の注目度): 28.809451200584288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in prompt learning of large Vision-Language Models (VLMs) have significantly improved performance in target-specific tasks. However, these prompting methods often struggle to tackle the target-unspecific or generalizable tasks effectively. It may be attributed to the fact that overfitting training causes the model to forget its general knowledge. The general knowledge has a strong promotion on target-unspecific tasks. To alleviate this issue, we propose a novel Features Matrix (FM) approach designed to enhance these models on target-unspecific tasks. Our method extracts and leverages general knowledge, shaping a Features Matrix (FM). Specifically, the FM captures the semantics of diverse inputs from a deep and fine perspective, preserving essential general knowledge, which mitigates the risk of overfitting. Representative evaluations demonstrate that: 1) the FM is compatible with existing frameworks as a generic and flexible module, and 2) the FM significantly showcases its effectiveness in enhancing target-unspecific tasks (base-to-novel generalization, domain generalization, and cross-dataset generalization), achieving state-of-the-art performance.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の迅速な学習における最近の進歩は,目標固有タスクの性能を著しく向上させた。
しかしながら、これらのプロンプト手法は、ターゲット非特異または一般化可能なタスクに効果的に取り組むのに苦労することが多い。
トレーニングの過度な適合によって、モデルは一般的な知識を忘れてしまうという事実が原因かもしれない。
一般知識は、目標非特異なタスクを強く推進する。
この問題を軽減するために,ターゲット非特異的なタスクにおいて,これらのモデルを強化するための新しい特徴行列 (FM) アプローチを提案する。
提案手法は,特徴行列(FM)を形作る一般知識を抽出し,活用する。
具体的には、FMは、多種多様な入力のセマンティクスを深く、きめ細かな視点から捉え、本質的な一般的な知識を保ち、過度に適合するリスクを軽減している。
代表的な評価は以下のとおりである。
1)FMは、ジェネリックでフレキシブルなモジュールとして既存のフレームワークと互換性があり、
2) FMは, 目標不特定タスク(ベース・ツー・ノーベル一般化, ドメイン一般化, クロス・データセット一般化) の強化, 最先端性能の達成に有効であることを示す。
関連論文リスト
- Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。
具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。
結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文 参考訳(メタデータ) (2024-12-08T16:10:42Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction [17.44991827937427]
マスク付き画像モデリング技術はコンピュータビジョンの景観を再定義した。
その成功にもかかわらず、密集予測タスク、特に深度推定におけるMIMベースの手法の可能性は未解決のままである。
SG-MIM(Structured Knowledge Guided Masked Image Modeling framework)を提案する。
論文 参考訳(メタデータ) (2024-09-04T08:24:53Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:00:35Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。