論文の概要: MARVIS: Modality Adaptive Reasoning over VISualizations
- arxiv url: http://arxiv.org/abs/2507.01544v1
- Date: Wed, 02 Jul 2025 09:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.140907
- Title: MARVIS: Modality Adaptive Reasoning over VISualizations
- Title(参考訳): MARVIS: Modality Adaptive Reasoning over VISualizations
- Authors: Benjamin Feuer, Lennart Purucker, Oussama Elachqar, Chinmay Hegde,
- Abstract要約: 我々は、たとえ小さな視覚言語モデルであっても、高精度にデータモダリティを予測できる訓練不要のMARVISを提案する。
MARVISは、単一の3Bパラメータモデルを使用して、視覚、オーディオ、生物学的、および表層ドメイン上での競合的なパフォーマンスを達成し、平均して16%のゲミニを上回る結果を達成する。
- 参考スコア(独自算出の注目度): 16.562630703324952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific applications of machine learning often rely on small, specialized models tuned to particular domains. Such models often achieve excellent performance, but lack flexibility. Foundation models offer versatility, but typically underperform specialized approaches, especially on non-traditional modalities and long-tail domains. We propose MARVIS (Modality Adaptive Reasoning over VISualizations), a training-free method that enables even small vision-language models to predict any data modality with high accuracy. MARVIS transforms latent embedding spaces into visual representations and then leverages the spatial and fine-grained reasoning skills of VLMs to successfully interpret and utilize them. MARVIS achieves competitive performance on vision, audio, biological, and tabular domains using a single 3B parameter model, achieving results that beat Gemini by 16\% on average and approach specialized methods, without exposing personally identifiable information (P.I.I.) or requiring any domain-specific training. We open source our code and datasets at https://github.com/penfever/marvis
- Abstract(参考訳): 機械学習の科学的応用は、しばしば特定のドメインに合わせて調整された小さな特殊なモデルに依存している。
このようなモデルはしばしば優れたパフォーマンスを達成するが、柔軟性に欠ける。
ファンデーションモデルは汎用性を提供するが、通常、特に非古典的なモダリティやロングテール領域において、特別なアプローチを過小評価する。
我々は,視覚言語モデルでさえも高精度にデータモダリティを予測できる訓練不要なMARVIS(Modality Adaptive Reasoning over VISualizations)を提案する。
MARVISは、遅延埋め込み空間を視覚表現に変換し、VLMの空間的およびきめ細かい推論技術を活用して、それらをうまく解釈し、活用する。
MARVISは、単一の3Bパラメータモデルを用いて視覚、オーディオ、生物学的、および表象ドメイン上での競争的なパフォーマンスを達成し、個人識別可能な情報(P.I.I.)を公開したり、ドメイン固有のトレーニングを必要とせずに、平均で16倍のゲミニを破り、特殊な手法にアプローチする結果を達成する。
コードとデータセットはhttps://github.com/penfever/marvisで公開しています。
関連論文リスト
- Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models [5.466962214217334]
Supervised Fine-tuning (SFT) は、大きな言語モデル(LLM)と、名前付きエンティティ認識(NER)のような情報抽出(IE)タスクの整合に広く用いられている。
推論時に専門家モデルを動的に選択・マージするSaMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-28T08:28:52Z) - Learnware of Language Models: Specialized Small Language Models Can Do Big [50.285859986475394]
本稿では,学習用パラダイムを言語モデルに適用するための予備的試みを示す。
我々は,8Bパラメータを持つ特殊SLMの学習装置を約100個構成した学習装置をシミュレートした。
各タスク固有の推論に対して1つの適切な学習ウェアを選択することで、システムは全てのベンチマークでベースSLMよりも優れる。
論文 参考訳(メタデータ) (2025-05-19T17:54:35Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - EnfoMax: Domain Entropy and Mutual Information Maximization for Domain
Generalized Face Anti-spoofing [0.0]
Face Anti-Spoofing (FAS) 法はドメイン内の設定でよく機能する。
ドメイン一般化(DG)法はFASにおいて注目されている。
本稿では,情報理論を用いてドメイン間FASタスクを解析するEnfoMaxフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-17T03:54:18Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。