論文の概要: VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan
- arxiv url: http://arxiv.org/abs/2503.10427v2
- Date: Sat, 15 Mar 2025 01:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:39.995091
- Title: VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan
- Title(参考訳): VisTW:台湾における伝統的な中国語のビジョンランゲージモデルのベンチマーク
- Authors: Zhi Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Yun-Nung Chen,
- Abstract要約: 本稿では,従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。
評価スイートは,VisTW-MCQとVisTW-Dialogueの2つの相補的なコンポーネントを含む。
- 参考スコア(独自算出の注目度): 20.92636353621876
- License:
- Abstract: In this paper, we propose a comprehensive evaluation benchmark for Visual Language Models (VLM) in Traditional Chinese. Our evaluation suite, the first of its kind, contains two complementary components: (1) VisTW-MCQ, a collection of manually curated exam multi-choice questions from 21 academic subjects designed to test the broad knowledge and reasoning capabilities of VLMs; and (2) VisTW-Dialogue, an open dialogue benchmark comprising 131 image-question pairs manually created to evaluate VLMs' ability in free-form dialogue generation within Taiwanese cultural contexts. These benchmarks address a critical gap in the evaluation landscape, where existing benchmarks predominantly focus on English or Simplified Chinese, neglecting the unique linguistic and cultural aspects of Traditional Chinese used in regions like Taiwan and Hong Kong. Our analysis reveals significant performance differences across various VLMs and highlights specific challenges in processing Traditional Chinese visual content.
- Abstract(参考訳): 本稿では,従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。
第1種である評価スイートは,(1)VLMの幅広い知識と推論能力をテストするために設計された21の学術的被験者による,手作業による試験用多項目質問のコレクションであるVisTW-MCQ,(2)台湾の文化文脈におけるVLMのフリーフォーム対話生成能力を評価するために,手作業で作成した131の画像検索ペアからなるオープンダイアログベンチマークであるVisTW-Dialogueの2つの補完的要素を含む。
これらのベンチマークは、台湾や香港などの地域で使われている伝統的な中国語の言語的・文化的側面を無視して、既存のベンチマークが英語や簡素な中国語に主に焦点をあてる評価環境における重要なギャップに対処する。
分析の結果,様々なVLMの性能差が明らかとなり,従来の中国の視覚コンテンツ処理における具体的な課題が浮き彫りになった。
関連論文リスト
- Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities [27.940469021840745]
視覚言語モデル(VLM)の空間的推論能力を評価するための評価プロトコルを提案する。
あいまいさを解消する英語の慣行と幾らかの整合性があるにもかかわらず、本実験はVLMの重大な欠点を明らかにした。
視覚言語モデルと人間の認知的直感の整合化を図りつつ、我々は空間的推論のあいまいさと文化的な多様性により多くの注意を払っている。
論文 参考訳(メタデータ) (2024-10-22T19:39:15Z) - JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models [8.746788828655356]
大規模言語モデル(LLM)の急速な進歩は、堅牢な評価フレームワークの必要性を強調している。
タイ文化・言語情報ベンチマーク(ThaiCLI)とタイ文化・言語情報ベンチマーク(ThaiCLI)の2つの主要なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-07T07:14:37Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning [0.0]
本研究は、タイ語の文脈における常識推論能力を評価するために設計された新しいデータセットである、タイ語におけるウィノグラードのコレクションを紹介する。
我々は,このベンチマークで人気の高い大規模言語モデルの性能を評価し,その強み,限界を明らかにし,現在の最先端技術に対する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T17:14:02Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。