論文の概要: MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems
- arxiv url: http://arxiv.org/abs/2604.07956v2
- Date: Fri, 10 Apr 2026 07:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.850086
- Title: MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems
- Title(参考訳): Moneta:マルチエージェントシステムを用いた地理情報によるマルチモーダル産業分類
- Authors: Arda Yüksel, Gabriel Thiem, Susanne Walter, Patrick Felka, Gabriela Alves Werb, Ivan Habernal,
- Abstract要約: 我々は,テキスト(Website, Wikipedia, Wikidata)と地理空間情報を用いた最初のマルチモーダル産業分類ベンチマークであるMONETAを提示する。
オープンでクローズドなマルチモーダル大言語モデル(MLLM)によるトレーニングフリーベースラインの62.10%と74.10%に到達しました。
マルチターン設計,コンテキスト強化,分類説明の組み合わせにより,最大22.80%の増加が観察された。
- 参考スコア(独自算出の注目度): 8.607408110363364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industry classification schemes are integral parts of public and corporate databases as they classify businesses based on economic activity. Due to the size of the company registers, manual annotation is costly, and fine-tuning models with every update in industry classification schemes requires significant data collection. We replicate the manual expert verification by using existing or easily retrievable multimodal resources for industry classification. We present MONETA, the first multimodal industry classification benchmark with text (Website, Wikipedia, Wikidata) and geospatial sources (OpenStreetMap and satellite imagery). Our dataset enlists 1,000 businesses in Europe with 20 economic activity labels according to EU guidelines (NACE). Our training-free baseline reaches 62.10% and 74.10% with open and closed-source Multimodal Large Language Models (MLLM). We observe an increase of up to 22.80% with the combination of multi-turn design, context enrichment, and classification explanations. We will release our dataset and the enhanced guidelines.
- Abstract(参考訳): 産業分類スキームは、ビジネスを経済活動に基づいて分類するため、公共および企業データベースの不可欠な部分である。
会社のレジスタのサイズのため、手動のアノテーションは高価であり、業界分類スキームの更新毎に微調整されたモデルには、かなりのデータ収集が必要である。
我々は,既存の,あるいは容易に検索可能なマルチモーダルリソースを産業分類に用いることで,手作業による専門家による検証を再現する。
我々は,テキスト(Website, Wikipedia, Wikidata)と地理空間情報(OpenStreetMap, 衛星画像)を用いた最初のマルチモーダル産業分類ベンチマークであるMONETAを紹介する。
当社のデータセットは、EUガイドライン(NACE)に従って、欧州の企業1000社に20の経済活動ラベルを登録しています。
トレーニングフリーのベースラインは、オープンソースでクローズドなMultimodal Large Language Models (MLLM) で62.10%、74.10%に達しています。
マルチターン設計,コンテキスト強化,分類説明の組み合わせにより,最大22.80%の増加が観察された。
データセットと強化されたガイドラインをリリースします。
関連論文リスト
- Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation [60.36971002553298]
ジェネレーティブレコメンデーションシステムは、レコメンデーションのための新しいパラダイムとして現れています。
大規模な、現実的で、完全にモダリティのデータを共同で提供する公開ベンチマークがまだ存在しない。
我々は、Tencent Advertising Algorithm Challenge 2025を組織し、この方向の研究を促進する。
論文 参考訳(メタデータ) (2026-04-04T17:05:15Z) - Building Data-Driven Occupation Taxonomies: A Bottom-Up Multi-Stage Approach via Semantic Clustering and Multi-Agent Collaboration [10.386888517619997]
高品質でデータ駆動型の作業を自動化するフレームワークであるCLIMBを紹介します。
3つの多様な実世界のデータセットから、CLIMBは既存の手法よりも一貫性があり、スケーラブルであることを示す。
論文 参考訳(メタデータ) (2025-09-19T09:17:48Z) - Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning [59.56171041796373]
我々は、堅牢で効率的なマルチモーダル・インストラクショナルデータを収集する。
インタラクションスタイルを多様性指標とし、マルチモーダルリッチなスタイルラーを用いてデータインストラクションパターンを識別する。
14のマルチモーダルベンチマークによって検証された10以上の実験環境において、ランダムサンプリング、ベースライン戦略、最先端の選択方法に対する一貫した改善を示す。
論文 参考訳(メタデータ) (2025-03-17T17:11:22Z) - Can Large Language Models Serve as Effective Classifiers for Hierarchical Multi-Label Classification of Scientific Documents at Industrial Scale? [1.0562108865927007]
大規模言語モデル(LLM)は、多ラベル分類のような複雑なタスクにおいて大きな可能性を証明している。
これらの課題を克服するために,LLMの強みと高密度検索手法を組み合わせる手法を提案する。
複数の分野にまたがる大規模プリプリントリポジトリであるSSRNにおいて,本手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-12-06T15:51:22Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Multilingual hierarchical classification of job advertisements for job vacancy statistics [1.6874375111244329]
本研究の目的は,オンライン求人広告のための多言語分類器を開発することである。
職業の階層構造を組み込むことで,予測精度が1-2ポイント向上することを示す。
クローズドおよびオープンソースソフトウェアを用いて翻訳されたデータに基づいてバイリンガル(ポーランド語と英語)とマルチリンガル(24言語)モデルを開発する。
論文 参考訳(メタデータ) (2024-11-06T09:16:15Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。