論文の概要: Ukrainian Visual Word Sense Disambiguation Benchmark
- arxiv url: http://arxiv.org/abs/2603.23627v1
- Date: Tue, 24 Mar 2026 18:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.981897
- Title: Ukrainian Visual Word Sense Disambiguation Benchmark
- Title(参考訳): ウクライナの視覚的単語センスの曖昧さベンチマーク
- Authors: Yurii Laba, Yaryna Mohytych, Ivanna Rohulia, Halyna Kyryleyza, Hanna Dydyk-Meush, Oles Dobosevych, Rostyslav Hryniv,
- Abstract要約: 本研究では,ウクライナ語における視覚的単語センス曖昧化(Visual Word Sense Disambiguation, Visual-WSD)タスクを評価するためのベンチマークを提案する。
Visual-WSDタスクの主目的は、最小限の文脈情報を用いて、与えられた曖昧な単語の最も適切な表現を特定することである。
分析の結果,ウクライナ語と英語の視覚-WSD課題において,有意な性能差が認められた。
- 参考スコア(独自算出の注目度): 0.7203557048672377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study presents a benchmark for evaluating the Visual Word Sense Disambiguation (Visual-WSD) task in Ukrainian. The main goal of the Visual-WSD task is to identify, with minimal contextual information, the most appropriate representation of a given ambiguous word from a set of ten images. To construct this benchmark, we followed a methodology similar to that proposed by (CITATION), who previously introduced benchmarks for the Visual-WSD task in English, Italian, and Farsi. This approach allows us to incorporate the Ukrainian benchmark into a broader framework for cross-language model performance comparisons. We collected the benchmark data semi-automatically and refined it with input from domain experts. We then assessed eight multilingual and multimodal large language models using this benchmark. All tested models performed worse than the zero-shot CLIP-based baseline model (CITATION) used by (CITATION) for the English Visual-WSD task. Our analysis revealed a significant performance gap in the Visual-WSD task between Ukrainian and English.
- Abstract(参考訳): 本研究では,ウクライナ語における視覚的単語センス曖昧化(Visual Word Sense Disambiguation, Visual-WSD)タスクを評価するためのベンチマークを提案する。
Visual-WSDタスクの主目的は、最小限の文脈情報を用いて、与えられた曖昧な単語を10個の画像から最も適切に表現することである。
このベンチマークを構築するために、我々は以前Visual-WSDタスクのベンチマークを英語、イタリア語、Farsiで導入したCITATION(CITATION)に類似した手法に従った。
このアプローチにより、ウクライナのベンチマークを、クロス言語モデルのパフォーマンス比較のためのより広範なフレームワークに組み込むことができます。
ベンチマークデータを半自動で収集し、ドメインの専門家からの入力で洗練しました。
次に、このベンチマークを用いて8つの多言語および多モーダルな大言語モデルを評価した。
全てのテストモデルは、英語のVisual-WSDタスクに使用されるゼロショットCLIPベースベースラインモデル(CITATION)よりもパフォーマンスが悪くなった。
分析の結果,ウクライナ語と英語の視覚-WSD課題において,有意な性能差が認められた。
関連論文リスト
- InsightVision: A Comprehensive, Multi-Level Chinese-based Benchmark for Evaluating Implicit Visual Semantics in Large Vision Language Models [30.986157664865534]
画像中の暗黙の意味の理解を評価するための,総合的,多レベルな中国語ベースのベンチマークを初めて紹介する。
このベンチマークは、表面レベルのコンテンツ理解、象徴的な意味解釈、背景知識理解、暗黙的な意味理解の4つのサブタスクに分類される。
このベンチマークを用いて、15個のオープンソースの大規模視覚言語モデル (LVLM) と GPT-4o を評価し、人間のパフォーマンスに最も優れたモデルラグでさえ、暗黙的な意味を理解するのに約14%遅れていることを明らかにする。
論文 参考訳(メタデータ) (2025-02-19T13:42:37Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding [77.26626173589746]
文脈内接地に対する多視点的アプローチ(MAGiC)を提案する。
2つの類似したオブジェクトを区別する言語に基づくオブジェクト参照を選択する。
SNAREオブジェクト参照タスクの最先端モデルよりも、相対誤差を12.9%削減する。
論文 参考訳(メタデータ) (2023-11-12T00:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。