論文の概要: CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2508.07295v1
- Date: Sun, 10 Aug 2025 11:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.793182
- Title: CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation
- Title(参考訳): CCFQA: 言語間・言語間音声のベンチマークとテキスト・ファクチュアリティ・アセスメント
- Authors: Yexing Du, Kaiyuan Liu, Youcheng Pan, Zheng Chu, Bo Yang, Xiaocheng Feng, Yang Xiang, Ming Liu,
- Abstract要約: CCFQAベンチマークには8言語にまたがる並列音声テキストの事実質問が含まれている。
実験の結果,現在のMLLMはCCFQAベンチマークにおいて大きな課題に直面していることがわかった。
本稿では,LLMの質問応答能力(QA)を多言語音声質問応答(SQA)タスクに効果的に伝達する,数発の翻訳学習戦略を提案する。
- 参考スコア(独自算出の注目度): 26.054199546779696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly popularized in the multilingual world, ensuring hallucination-free factuality becomes markedly crucial. However, existing benchmarks for evaluating the reliability of Multimodal Large Language Models (MLLMs) predominantly focus on textual or visual modalities with a primary emphasis on English, which creates a gap in evaluation when processing multilingual input, especially in speech. To bridge this gap, we propose a novel \textbf{C}ross-lingual and \textbf{C}ross-modal \textbf{F}actuality benchmark (\textbf{CCFQA}). Specifically, the CCFQA benchmark contains parallel speech-text factual questions across 8 languages, designed to systematically evaluate MLLMs' cross-lingual and cross-modal factuality capabilities. Our experimental results demonstrate that current MLLMs still face substantial challenges on the CCFQA benchmark. Furthermore, we propose a few-shot transfer learning strategy that effectively transfers the Question Answering (QA) capabilities of LLMs in English to multilingual Spoken Question Answering (SQA) tasks, achieving competitive performance with GPT-4o-mini-Audio using just 5-shot training. We release CCFQA as a foundational research resource to promote the development of MLLMs with more robust and reliable speech understanding capabilities. Our code and dataset are available at https://github.com/yxduir/ccfqa.
- Abstract(参考訳): 大規模言語モデル(LLM)が多言語世界で普及するにつれて、幻覚のない事実が著しく重要になる。
しかし、MLLM(Multimodal Large Language Models)の信頼性を評価するための既存のベンチマークでは、主に英語を重視したテキストや視覚のモダリティに重点を置いており、特に音声における多言語入力処理における評価のギャップが生じる。
このギャップを埋めるために、新しい \textbf{C}ross-lingual と \textbf{C}ross-modal \textbf{F}actuality benchmark (\textbf{CCFQA})を提案する。
具体的には、CCFQAベンチマークには、8つの言語にまたがるパラレルな音声テキストの事実質問が含まれており、MLLMの言語間およびモーダル間の事実性機能を体系的に評価するように設計されている。
実験の結果,現在のMLLMはCCFQAベンチマークにおいて大きな課題に直面していることがわかった。
さらに,英語におけるLLMの質問回答(QA)機能を多言語音声質問回答(SQA)タスクに効果的に移行し,GPT-4o-mini-Audioと競合する性能を5ショットトレーニングで達成する,数ショット転送学習戦略を提案する。
我々は、より堅牢で信頼性の高い音声理解機能を持つMLLMの開発を促進するための基礎研究資源としてCCFQAをリリースした。
私たちのコードとデータセットはhttps://github.com/yxduir/ccfqa.comで公開されています。
関連論文リスト
- MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks [25.75895667904485]
MCIF (Multimodal Crosslingual Instruction following) は、科学的な議論に基づく最初の多言語人手によるベンチマークである。
MCFは、音声、視覚、テキストの3つの中核モダリティと4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがる。
MLLMの言語間の命令を解釈し、それをマルチモーダルな文脈情報と組み合わせることで、包括的なMLLMの能力の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T19:00:51Z) - mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [11.996399504336624]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。
我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-06-10T03:15:08Z) - SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs [12.60449414234283]
SpokenNativQAは、最初の多言語および文化的に整列された音声質問応答データセットである。
データセットは、複数の言語で約33,000の自然に話される質問と回答から構成される。
論文 参考訳(メタデータ) (2025-05-25T14:22:18Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。
いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。
また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-15T06:35:27Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.524375463656369]
言語アクセプタビリティの多言語評価 -- MELA -- 10言語を対象とする46Kのサンプルを用いて、言語アクセプタビリティに関する最も大きなベンチマークを提示する。
多言語解釈可能性の追求において, 微調整XLM-Rを用いた探索実験を行った。
言語間移動実験は、受容可能性判定における伝達が非自明であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。