論文の概要: Multi-TW: Benchmarking Multimodal Models on Traditional Chinese Question Answering in Taiwan
- arxiv url: http://arxiv.org/abs/2508.01274v1
- Date: Sat, 02 Aug 2025 09:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.799318
- Title: Multi-TW: Benchmarking Multimodal Models on Traditional Chinese Question Answering in Taiwan
- Title(参考訳): 台湾における伝統的な中国語質問回答におけるマルチモーダルモデルのベンチマーク
- Authors: Jui-Ming Yao, Bing-Cheng Xie, Sheng-Wei Peng, Hao-Yuan Chen, He-Rong Zheng, Bing-Jia Tan, Peter Shaojui Wang, Shun-Feng Su,
- Abstract要約: Multi-TWは、任意のモデルのパフォーマンスとレイテンシを評価するための、中国の最初の伝統的なベンチマークである。
音声の書き起こしによる様々な非日常モデルと視覚言語モデル (VLM) の評価を行った。
- 参考スコア(独自算出の注目度): 5.716612433322328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) process visual, acoustic, and textual inputs, addressing the limitations of single-modality LLMs. However, existing benchmarks often overlook tri-modal evaluation in Traditional Chinese and do not consider inference latency. To address this, we introduce Multi-TW, the first Traditional Chinese benchmark for evaluating the performance and latency of any-to-any multimodal models. Multi-TW includes 900 multiple-choice questions (image and text, audio and text pairs) sourced from official proficiency tests developed with the Steering Committee for the Test of Proficiency-Huayu (SC-TOP). We evaluated various any-to-any models and vision-language models (VLMs) with audio transcription. Our results show that closed-source models generally outperform open-source ones across modalities, although open-source models can perform well in audio tasks. End-to-end any-to-any pipelines offer clear latency advantages compared to VLMs using separate audio transcription. Multi-TW presents a comprehensive view of model capabilities and highlights the need for Traditional Chinese fine-tuning and efficient multimodal architectures.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的、音響的、テキスト的な入力を処理し、単一モダリティ LLM の限界に対処する。
しかし、既存のベンチマークは、伝統的な中国語のトリモーダル評価を見落とし、推論遅延を考慮しないことが多い。
そこで本研究では,中国初のマルチモーダルモデルの性能とレイテンシを評価するベンチマークであるMulti-TWを紹介する。
Multi-TWは、SC-TOP(Stering Committee for the Test of Proficiency-Huayu)によって開発された公式の熟練度テストから得られる900の多重選択質問(画像とテキスト、オーディオ、テキストペア)を含んでいる。
音声の書き起こしによる様々な非日常モデルと視覚言語モデル (VLM) の評価を行った。
以上の結果から,クローズド・ソース・モデルは概してモーダル性に優れるが,オープンソース・モデルは音声タスクにおいて良好に機能することが示された。
エンドツーエンドの任意のパイプラインは、別個のオーディオ書き起こしを使用するVLMに比べて明らかにレイテンシの利点がある。
Multi-TWは、モデル機能に関する包括的な見解を示し、伝統的な中国の微調整と効率的なマルチモーダルアーキテクチャの必要性を強調している。
関連論文リスト
- TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - Baichuan-Omni Technical Report [28.306965534325904]
世界初のオープンソース 7B Multimodal Large Language Model (MLLM) であるBaichuan-omni を紹介する。
Baichuan-omniは画像、ビデオ、オーディオ、テキストのモダリティを同時に処理し分析する能力を持っている。
論文 参考訳(メタデータ) (2024-10-11T06:44:31Z) - VITA: Towards Open-Source Interactive Omni Multimodal LLM [99.98584794790207]
MLLM(Multimodal Large Language Model)の最初のオープンソースであるVITAを紹介する。
2段階のマルチタスク学習により,言語モデルに視覚的・音声的能力を持たせる。
VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。
論文 参考訳(メタデータ) (2024-08-09T17:59:49Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages [92.86083489187403]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。