論文の概要: Automated Model Discovery via Multi-modal & Multi-step Pipeline
- arxiv url: http://arxiv.org/abs/2509.25946v1
- Date: Tue, 30 Sep 2025 08:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.069841
- Title: Automated Model Discovery via Multi-modal & Multi-step Pipeline
- Title(参考訳): マルチモーダル・マルチステップパイプラインによる自動モデル探索
- Authors: Lee Jung-Mok, Nam Hyeon-Woo, Moon Ye-Bin, Junhyun Nam, Tae-Hyun Oh,
- Abstract要約: 効率的な自動モデル探索のためのマルチモーダル・グラニュアル・マルチステップパイプラインを提案する。
我々のパイプラインは、細部を捕捉し、強力な一般化性を保証するモデルを効果的に発見することを示した。
- 参考スコア(独自算出の注目度): 27.271570705491968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated model discovery is the process of automatically searching and identifying the most appropriate model for a given dataset over a large combinatorial search space. Existing approaches, however, often face challenges in balancing the capture of fine-grained details with ensuring generalizability beyond training data regimes with a reasonable model complexity. In this paper, we present a multi-modal \& multi-step pipeline for effective automated model discovery. Our approach leverages two vision-language-based modules (VLM), AnalyzerVLM and EvaluatorVLM, for effective model proposal and evaluation in an agentic way. AnalyzerVLM autonomously plans and executes multi-step analyses to propose effective candidate models. EvaluatorVLM assesses the candidate models both quantitatively and perceptually, regarding the fitness for local details and the generalibility for overall trends. Our results demonstrate that our pipeline effectively discovers models that capture fine details and ensure strong generalizability. Additionally, extensive ablation studies show that both multi-modality and multi-step reasoning play crucial roles in discovering favorable models.
- Abstract(参考訳): 自動モデル探索は、与えられたデータセットの最も適切なモデルを、大規模な組合せ探索空間上で自動的に検索し識別するプロセスである。
しかし、既存のアプローチでは、詳細な詳細の取得と、適切なモデル複雑さを持つデータレシシシのトレーニングを超えた一般化性の確保のバランスをとる上で、しばしば課題に直面している。
本稿では,効率的な自動モデル探索のためのマルチモーダル・アンド・マルチステップパイプラインを提案する。
提案手法では,2つの視覚言語ベースモジュール (AnalyzerVLM) と評価器VLM (EvaluatorVLM) を有効モデルの提案とエージェント手法による評価に活用する。
AnalyzerVLMは、効率的な候補モデルを提案するための多段階解析を自律的に計画し実行している。
EvaluatorVLMは、局所的な詳細の適合度と全体的な傾向の一般化性について、定量的かつ知覚的に候補モデルを評価する。
我々のパイプラインは、細部を捕捉し、強力な一般化性を保証するモデルを効果的に発見することを示した。
さらに、広範囲にわたるアブレーション研究は、多段階の推論と多段階の推論の両方が好ましいモデルを発見する上で重要な役割を担っていることを示している。
関連論文リスト
- Universal Retrieval for Multimodal Trajectory Modeling [12.160448446091607]
軌道データは、AIエージェント能力を向上する大きな可能性を秘めている。
本稿では,ユニバーサル検索とエージェント中心軌道モデリングのギャップを埋めるマルチモーダル軌道検索手法を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:50:38Z) - Improved visual-information-driven model for crowd simulation and its modular application [4.683197108420276]
データ駆動のクラウドシミュレーションモデルは、シミュレーションの精度とリアリズムを高める利点を提供する。
データ駆動の群集シミュレーションモデルを開発することは、依然としてオープンな問題である。
本稿では,視覚情報抽出手法と出口手がかりを取り入れたデータ駆動モデルを提案する。
論文 参考訳(メタデータ) (2025-04-02T07:53:33Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。