論文の概要: Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs
- arxiv url: http://arxiv.org/abs/2509.24297v2
- Date: Tue, 30 Sep 2025 04:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.411557
- Title: Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs
- Title(参考訳): Q-Mirror: 科学的テキスト専用QAペアのマルチモーダルポテンシャルを解き放つ
- Authors: Junying Wang, Zicheng Zhang, Ye Shen, Yalun Wu, Yingji Liang, Yijin Guo, Farong Wen, Wenzhe Li, Xuezhi Zhao, Qi Jia, Guangtao Zhai,
- Abstract要約: テキストオンリーQAペア(TQA)を高品質マルチモーダルQAペア(MMQA)に変換する可能性を探る。
我々は、TQA-to-MMQAフレームワークを開発し、変換の原則を提供する包括的で多次元のMMQA品質を確立する。
我々は,MMQA生成と評価を反復精製のためのクローズドループに統合することにより,我々のフレームワークを運用するエージェントシステム(Q-Mirror)を開発した。
- 参考スコア(独自算出の注目度): 60.0988889107102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality, multi-modal benchmarks are crucial for advancing scientific reasoning in large models yet their manual creation is costly and unscalable. To address this bottleneck, we explore the potential for transforming Text-Only QA Pairs (TQAs) into high-quality Multi-Modal QA Pairs (MMQAs), which include three parts: 1) Task Definition \& Evaluation Rubric: We develop a TQA-to-MMQA framework and establish a comprehensive, multi-dimensional MMQA quality rubric that provides principles for the transformation. 2) Benchmark Construction: Then we construct two extensive benchmarks to rigorously evaluate state-of-the-art generation \& understanding models on the distinct tasks of MMQA generation \& MMQA quality evaluation. 3) Preliminary Solution: We develop an agentic system (Q-Mirror), which operationalizes our framework by integrating MMQA generation and evaluation into a closed loop for iterative refinement. Our experiments show that while state-of-the-art models can generate MMQAs, their outputs still leave substantial gaps, underscoring the need for reliable evaluation. We further demonstrate that top-tier understanding models align closely with human judgment in MMQA quality assessment. Leveraging both insights, the Q-Mirror agent raises average scores from 78.90 to 85.22 and pass rates from 72\% to 95\%, offering a practical path to large-scale scientific benchmarks.
- Abstract(参考訳): 高品質でマルチモーダルなベンチマークは、大規模なモデルで科学的推論を進める上で非常に重要ですが、手作業による作成はコストがかかり、実現不可能です。
このボトルネックに対処するために、テキストオンリーQAペア(TQA)を3つの部分を含む高品質なマルチモーダルQAペア(MMQA)に変換する可能性を探る。
1) TQA-to-MMQAフレームワークを開発し,その変換の原則を提供する多次元MMQA品質ルーブリックを包括的に確立する。
2)ベンチマーク構築:その上で,MMQA生成とMMQA生成の品質評価の異なるタスクについて,最先端のモデルと理解モデルを厳格に評価するために,2つの広範囲なベンチマークを構築した。
3) プリミティブ・ソリューション: MMQA生成と評価を統合したエージェント・システム(Q-Mirror)を開発した。
我々の実験によると、最先端モデルではMMQAを生成できるが、その出力は依然としてかなりのギャップを残しており、信頼性の高い評価の必要性が強調されている。
さらに、上位階層の理解モデルは、MMQAの品質評価において、人間の判断と密接に一致していることを示す。
両者の知見を活用して、Q-Mirrorエージェントは平均スコアを78.90から85.22に引き上げ、パスレートを72\%から95\%に引き上げ、大規模な科学ベンチマークへの実践的なパスを提供する。
関連論文リスト
- Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models [80.79438689784958]
画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。
Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
論文 参考訳(メタデータ) (2023-12-23T17:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。