論文の概要: MAviS: A Multimodal Conversational Assistant For Avian Species
- arxiv url: http://arxiv.org/abs/2603.07294v1
- Date: Sat, 07 Mar 2026 17:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.211612
- Title: MAviS: A Multimodal Conversational Assistant For Avian Species
- Title(参考訳): MAVIS:鳥類のマルチモーダル会話アシスタント
- Authors: Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal,
- Abstract要約: 生物多様性の保全と生態モニタリングを促進するためには、微細な理解と種特異的な多様質問応答が不可欠である。
既存の多モーダルな言語モデルは、鳥類種のような特殊なトピックに関して、課題に直面している。
我々は,1,000種以上の鳥類に対して,画像,音声,テキストのモダリティを統合するデータセットであるMAviS-Datasetを紹介する。
また、音声、視覚、テキストをサポートするマルチモーダルLLMであるMAviS-Chatを導入し、微細な種理解のために設計する。
- 参考スコア(独自算出の注目度): 33.894179689674786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained understanding and species-specific multimodal question answering are vital for advancing biodiversity conservation and ecological monitoring. However, existing multimodal large language models face challenges when it comes to specialized topics like avian species, making it harder to provide accurate and contextually relevant information in these areas. To address this limitation, we introduce the MAviS-Dataset, a large-scale multimodal avian species dataset that integrates image, audio, and text modalities for over 1,000 bird species, comprising both pretraining and instruction-tuning subsets enriched with structured question-answer pairs. Building on the MAviS-Dataset, we introduce MAviS-Chat, a multimodal LLM that supports audio, vision, and text and is designed for fine-grained species understanding, multimodal question answering, and scene-specific description generation. Finally, for quantitative evaluation, we present MAviS-Bench, a benchmark of over 25,000 QA pairs designed to assess avian species-specific perceptual and reasoning abilities across modalities. Experimental results show that MAviS-Chat outperforms the baseline MiniCPM-o-2.6 by a large margin, achieving state-of-the-art open-source results and demonstrating the effectiveness of our instruction-tuned MAviS-Dataset. Our findings highlight the necessity of domain-adaptive multimodal LLMs for ecological applications.
- Abstract(参考訳): 生物多様性の保全と生態モニタリングを促進するためには、微細な理解と種特異的な多様質問応答が不可欠である。
しかしながら、既存のマルチモーダルな大規模言語モデルは、鳥類種のような特殊なトピックに関して問題に直面しており、これらの領域において正確で文脈的に関係のある情報を提供することが困難である。
この制限に対処するために,1,000種以上の鳥に対して画像,音声,テキストのモダリティを統合した大規模マルチモーダル鳥類種データセットであるMAviS-Datasetを紹介した。
MAviS-Dataset上に構築したMAviS-Chatは、音声、視覚、テキストをサポートするマルチモーダルLCMで、細かな種の理解、多モーダルな質問応答、シーン固有の記述生成のために設計されている。
最後に,25,000以上のQAペアのベンチマークであるMAviS-Benchについて検討した。
実験結果から,MAviS-ChatはベースラインであるMiniCPM-o-2.6よりも大きなマージンで優れており,最先端のオープンソースとしての結果が得られ,提案したMAviS-Datasetの有効性が示された。
本研究は, ドメイン適応型マルチモーダルLCMの生態学的応用の必要性を浮き彫りにした。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [16.248703946640735]
マルチモーダル知識グラフ(MMKG)は、複数のモーダルにまたがる明示的な知識を表す。
Visual-Audio-Text Knowledge Graph (VAT-KG)は、概念中心で知識集約型のマルチモーダル知識グラフである。
論文 参考訳(メタデータ) (2025-06-11T07:22:57Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。