Fugu-MT 論文翻訳(概要): Benchmarking Vision Language Models on German Factual Data

論文の概要: Benchmarking Vision Language Models on German Factual Data

arxiv url: http://arxiv.org/abs/2504.11108v1
Date: Tue, 15 Apr 2025 11:55:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 03:22:47.055754
Title: Benchmarking Vision Language Models on German Factual Data
Title（参考訳）: ドイツの実データに基づく視覚言語モデルのベンチマーク
Authors: René Peinl, Vincent Tischler,
Abstract要約: 本稿では,ドイツ語と英語の事実知識に基づくオープンウェイトVLMの分析を行う。有名人や観光人にとって、VLMはドイツの画像コンテンツに対する視覚的認識が欠けているため、苦労している。動物や植物にとって、テストされたモデルは、しばしば画像の内容を正しく識別するが、ドイツのランゲージでは失敗する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Similar to LLMs, the development of vision language models is mainly driven by English datasets and models trained in English and Chinese language, whereas support for other languages, even those considered high-resource languages such as German, remains significantly weaker. In this work we present an analysis of open-weight VLMs on factual knowledge in the German and English language. We disentangle the image-related aspects from the textual ones by analyzing accu-racy with jury-as-a-judge in both prompt languages and images from German and international contexts. We found that for celebrities and sights, VLMs struggle because they are lacking visual cognition of German image contents. For animals and plants, the tested models can often correctly identify the image contents ac-cording to the scientific name or English common name but fail in German lan-guage. Cars and supermarket products were identified equally well in English and German images across both prompt languages.
Abstract（参考訳）: LLMと同様に、視覚言語モデルの開発は主に英語と中国語で訓練された英語のデータセットとモデルによって進められている。本稿では,ドイツ語と英語の事実知識に基づくオープンウェイトVLMの分析について述べる。我々は、アクア・ア・ジャッジ(accu-as-a-judge)によるアクア・ラッキー(accu-racy)の分析により、アクア・ア・ジャッジ(accu-as-a-judge)と、ドイツ語および国際的文脈からの即時言語と画像の両方において、画像に関連する側面をテキストから切り離す。有名人や観光者にとって、VLMはドイツの画像コンテンツに対する視覚的認識が欠けているため、苦戦していることがわかった。動物や植物にとって、テストされたモデルは、しばしば科学的名前または英語のコモンネームに従って画像の内容を正確に識別することができるが、ドイツのランゲージでは失敗する。車とスーパーマーケットの製品は、英語とドイツ語の両方のプロンプト言語で同様に識別された。

関連論文リスト

From Monolingual to Bilingual: Investigating Language Conditioning in Large Language Models for Psycholinguistic Tasks [9.837135712999471]
大規模言語モデル(LLM)は強力な言語能力を示すが、言語間の心理言語学的な知識のエンコード方法についてはほとんど分かっていない。本研究では,LLMが言語的アイデンティティの異なる人間的な心理言語学的反応を示すかどうかについて検討する。 Llama-3.3-70B-Instruct と Qwen2.5-72B-Instruct の2つのモデルを評価する。
論文参考訳（メタデータ） (2025-08-04T15:10:44Z)
Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文参考訳（メタデータ） (2025-05-23T02:46:18Z)
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models [11.714753007667941]
GlotEvalは、多言語評価のために設計された軽量フレームワークである。数十から数百の言語にまたがる7つの重要なタスク(機械翻訳、テキスト分類、要約、オープンエンドジェネレーション、読書理解、シーケンスラベリング、本質的な評価)をサポートする。多様な言語的文脈におけるモデルの強みと弱みの正確な診断を可能にする。
論文参考訳（メタデータ） (2025-04-05T12:30:58Z)
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [74.4821011648997]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のために設計されたベンチマークである。視覚言語モデル(VLM)を2つのタスクで評価する。言語と視覚の関係を混乱させようとする12の推論カテゴリを考察する。
論文参考訳（メタデータ） (2025-02-24T09:25:51Z)
Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文参考訳（メタデータ） (2024-10-28T22:09:43Z)
See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文参考訳（メタデータ） (2024-06-17T15:49:51Z)
Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。我々の研究は、Llama2の翻訳能力について論じている。実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文参考訳（メタデータ） (2024-02-21T16:32:38Z)
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。 ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文参考訳（メタデータ） (2023-10-19T07:11:48Z)
Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文参考訳（メタデータ） (2023-06-14T17:53:06Z)
Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文参考訳（メタデータ） (2021-09-28T16:51:38Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。