Fugu-MT 論文翻訳(概要): Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese

論文の概要: Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese

arxiv url: http://arxiv.org/abs/2404.07824v1
Date: Thu, 11 Apr 2024 15:09:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 13:30:32.043836
Title: Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese
Title（参考訳）: Heron-Bench: 日本語の視覚言語モデル評価ベンチマーク
Authors: Yuichi Inoue, Kento Sasaki, Yuma Ochi, Kazuki Fujii, Kotaro Tanahashi, Yu Yamaguchi,
Abstract要約: 視覚言語モデル(VLM)の日本語能力を評価するための新しいベンチマークを導入する。日本語のヘロン・ベンチは、日本語の文脈に合わせて様々な画像検索応答ペアで構成されている。本稿では,日本語の視覚指導調律データセットを用いて学習した日本語VLMについて述べる。
参考スコア（独自算出の注目度）: 1.2182821723492487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Language Models (VLMs) have undergone a rapid evolution, giving rise to significant advancements in the realm of multimodal understanding tasks. However, the majority of these models are trained and evaluated on English-centric datasets, leaving a gap in the development and evaluation of VLMs for other languages, such as Japanese. This gap can be attributed to the lack of methodologies for constructing VLMs and the absence of benchmarks to accurately measure their performance. To address this issue, we introduce a novel benchmark, Japanese Heron-Bench, for evaluating Japanese capabilities of VLMs. The Japanese Heron-Bench consists of a variety of imagequestion answer pairs tailored to the Japanese context. Additionally, we present a baseline Japanese VLM that has been trained with Japanese visual instruction tuning datasets. Our Heron-Bench reveals the strengths and limitations of the proposed VLM across various ability dimensions. Furthermore, we clarify the capability gap between strong closed models like GPT-4V and the baseline model, providing valuable insights for future research in this domain. We release the benchmark dataset and training code to facilitate further developments in Japanese VLM research.
Abstract（参考訳）: 視覚言語モデル(VLM)は急速な進化を遂げ、マルチモーダル理解タスクの領域において大きな進歩をもたらした。しかし、これらのモデルの大部分は英語中心のデータセットで訓練・評価されており、日本語など他の言語でのVLMの開発と評価にギャップが残されている。このギャップは、VLMを構築するための方法論の欠如と、その性能を正確に測定するベンチマークの欠如に起因している。この問題に対処するため,本研究では,VLMの日本語能力を評価するための新しいベンチマークである日本語 Heron-Bench を提案する。日本語のヘロン・ベンチは、日本語の文脈に合わせて様々な画像検索応答ペアで構成されている。さらに,日本語の視覚指導訓練データセットをベースラインとした日本語VLMを提案する。我々のヘロン・ベンチは、様々な能力次元にわたって提案されたVLMの強さと限界を明らかにする。さらに,GPT-4Vのような強閉モデルとベースラインモデルとの能力ギャップを明らかにし,今後の研究に有用な知見を提供する。本稿では,日本のVLM研究におけるさらなる発展を促進するため,ベンチマークデータセットとトレーニングコードをリリースする。

関連論文リスト

Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models [7.343894708908458]
本稿では,VLM(VARCO-VISION)をオープンソースとして導入する。我々は、モデルが言語情報と視覚情報の両方を学ぶことができるステップバイステップのトレーニング戦略を取り入れた。 VARCO-VISIONは、その用途と潜在的な応用を拡大し、接地、参照、OCRを行うことができる。
論文参考訳（メタデータ） (2024-11-28T12:38:42Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models [28.716852515539497]
本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
論文参考訳（メタデータ） (2024-09-03T03:42:56Z)
Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。 VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文参考訳（メタデータ） (2024-04-29T22:06:17Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文参考訳（メタデータ） (2023-05-24T07:51:42Z)
XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文参考訳（メタデータ） (2022-04-15T03:44:00Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。