論文の概要: BLUEX Revisited: Enhancing Benchmark Coverage with Automatic Captioning
- arxiv url: http://arxiv.org/abs/2508.21294v1
- Date: Fri, 29 Aug 2025 01:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.914496
- Title: BLUEX Revisited: Enhancing Benchmark Coverage with Automatic Captioning
- Title(参考訳): BLUEXが再考 - 自動キャプションによるベンチマークカバレッジ向上
- Authors: João Guilherme Alves Santos, Giovana Kerche Bonás, Thales Sales Almeida,
- Abstract要約: 我々は、2024-2025の試験を含むBLUEXデータセットの更新版を提示し、最先端のモデルを用いて自動的に画像キャプションを生成する。
カプセル化戦略は、テキストのみのモデルへのアクセシビリティを40%以上増加させ、1,422の有用な質問を生み出している。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing capabilities of Large Language Models (LLMs), there is an increasing need for robust evaluation methods, especially in multilingual and non-English contexts. We present an updated version of the BLUEX dataset, now including 2024-2025 exams and automatically generated image captions using state-of-the-art models, enhancing its relevance for data contamination studies in LLM pretraining. Captioning strategies increase accessibility to text-only models by more than 40%, producing 1,422 usable questions, more than doubling the number in the original BLUEX. We evaluated commercial and open-source LLMs and their ability to leverage visual context through captions.
- Abstract(参考訳): LLM(Large Language Models)の能力の増大に伴い、特に多言語および非英語の文脈において、ロバストな評価手法の必要性が高まっている。
我々は,2024-2025の試験を含むBLUEXデータセットの更新版を提示し,最新技術を用いた画像キャプションの自動生成を行い,LLMプレトレーニングにおけるデータ汚染研究の関連性を高めた。
カプセル化戦略は、テキストのみのモデルへのアクセシビリティを40%以上増加させ、元のBLUEXの数を倍増させるよりも、1,422の有用な質問を生み出した。
商用およびオープンソース LLM と,キャプションによる視覚的コンテキストの活用能力について検討した。
関連論文リスト
- Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective [40.29094043868067]
本稿では,長期文書検索においてLLMベースの埋め込みモデルよりも20%優れる拡散言語埋め込みモデルについて,最初の体系的研究を行う。
我々の分析は、双方向の注意が、長く複雑なテキストでグローバルなコンテキストを符号化するのに重要であることを検証している。
論文 参考訳(メタデータ) (2025-05-21T02:59:14Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。