論文の概要: AIDE: Agentically Improve Visual Language Model with Domain Experts
- arxiv url: http://arxiv.org/abs/2502.09051v1
- Date: Thu, 13 Feb 2025 08:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:25.036639
- Title: AIDE: Agentically Improve Visual Language Model with Domain Experts
- Title(参考訳): AIDE: ドメインエキスパートによる視覚言語モデルの改善
- Authors: Ming-Chang Chiu, Fuxiao Liu, Karan Sapra, Andrew Tao, Yaser Jacoob, Xuezhe Ma, Zhiding Yu, Guilin Liu,
- Abstract要約: AIDE(Agentic Improvement through Domain Experts)は、Visual Language Modelsが自律的に機能を強化することを可能にする新しいフレームワークである。
AIDEは、(1)洗練のためのインスタンスの識別、(2)対象分析のためのドメインエキスパートの関与、(3)既存のデータによるエキスパートアウトプットの合成、(4)強化されたインスタンスをトレーニングパイプラインに統合する4段階のプロセスで運用されている。
- 参考スコア(独自算出の注目度): 39.34183197101934
- License:
- Abstract: The enhancement of Visual Language Models (VLMs) has traditionally relied on knowledge distillation from larger, more capable models. This dependence creates a fundamental bottleneck for improving state-of-the-art systems, particularly when no superior models exist. We introduce AIDE (Agentic Improvement through Domain Experts), a novel framework that enables VLMs to autonomously enhance their capabilities by leveraging specialized domain expert models. AIDE operates through a four-stage process: (1) identifying instances for refinement, (2) engaging domain experts for targeted analysis, (3) synthesizing expert outputs with existing data, and (4) integrating enhanced instances into the training pipeline. Experiments on multiple benchmarks, including MMMU, MME, MMBench, etc., demonstrate AIDE's ability to achieve notable performance gains without relying on larger VLMs nor human supervision. Our framework provides a scalable, resource-efficient approach to continuous VLM improvement, addressing critical limitations in current methodologies, particularly valuable when larger models are unavailable to access.
- Abstract(参考訳): 視覚言語モデル(VLM)の強化は、伝統的により大きな、より有能なモデルからの知識蒸留に依存してきた。
この依存は、特に優れたモデルが存在しない場合に、最先端システムを改善するための根本的なボトルネックを生み出します。
AIDE(Agentic Improvement through Domain Experts)は、専門的なドメインエキスパートモデルを活用することで、VLMが自律的に機能を強化することを可能にする新しいフレームワークである。
AIDEは、(1)洗練のためのインスタンスの識別、(2)対象分析のためのドメインエキスパートの関与、(3)既存のデータによるエキスパートアウトプットの合成、(4)強化されたインスタンスをトレーニングパイプラインに統合する4段階のプロセスで運用されている。
MMMU、MME、MMBenchなどを含む複数のベンチマークの実験では、より大きなVLMや人間の監督に頼ることなく、AIDEが顕著なパフォーマンス向上を達成できることが示されている。
我々のフレームワークは、継続的なVLM改善に対するスケーラブルでリソース効率のよいアプローチを提供し、特に大きなモデルがアクセスできない場合に、現在の方法論における限界に対処します。
関連論文リスト
- Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。
具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。
結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文 参考訳(メタデータ) (2024-12-08T16:10:42Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - MoDEM: Mixture of Domain Expert Models [23.846823652305027]
大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。
本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。
本研究は,本手法が同等の大きさの汎用モデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-09T23:52:54Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。