論文の概要: Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT
- arxiv url: http://arxiv.org/abs/2511.17405v2
- Date: Mon, 24 Nov 2025 02:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 16:30:37.516691
- Title: Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT
- Title(参考訳): 複数の選択を越えて:ロバストなビジョンランゲージRFTのための検証可能なOpenQA
- Authors: Yesheng Liu, Hao Li, Haiyu Xu, Baoqi Pei, Jiahao Wang, Mingxuan Zhao, Jingshu Zheng, Zheqi He, JG Yao, Bowen Qin, Xi Yang, Jiajun Zhang,
- Abstract要約: 複数選択質問応答(MCQA)は、現代のマルチモーダル言語モデルのRFTの評価と強化のための一般的なフォーマットである。
ReVeL(ReVeL)は,複数の質問をオープンな質問に書き換えるフレームワークである。
- 参考スコア(独自算出の注目度): 25.508458982314284
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiple-choice question answering (MCQA) has been a popular format for evaluating and reinforcement fine-tuning (RFT) of modern multimodal language models. Its constrained output format allows for simplified, deterministic automatic verification. However, we find that the options may leak exploitable signals, which makes the accuracy metrics unreliable for indicating real capabilities and encourages explicit or implicit answer guessing behaviors during RFT. We propose ReVeL (Rewrite and Verify by LLM), a framework that rewrites multiple-choice questions into open-form questions while keeping answers verifiable whenever possible. The framework categorizes questions according to different answer types, apply different rewriting and verification schemes, respectively. When applied for RFT, we converted 20k MCQA examples and use GRPO to finetune Qwen2.5-VL models. Models trained on ReVeL-OpenQA match MCQA accuracy on multiple-choice benchmarks and improve OpenQA accuracy by about six percentage points, indicating better data efficiency and more robust reward signals than MCQA-based training. When used for evaluation, ReVeL also reveals up to 20 percentage points of score inflation in MCQA benchmarks (relative to OpenQA), improves judging accuracy, and reduces both cost and latency. We will release code and data publicly.
- Abstract(参考訳): 複数選択質問応答(MCQA)は、現代のマルチモーダル言語モデルのRFTの評価と強化のための一般的なフォーマットである。
その制約付き出力フォーマットは、単純化された決定論的自動検証を可能にする。
しかし、これらのオプションは、実力を示すために精度の指標を信頼できず、RFT中に暗黙的または暗黙的な応答推定行動を奨励する、悪用可能な信号を漏らす可能性がある。
ReVeL(Rewrite and Verify by LLM)は,複数項目の質問をオープンな質問に書き換えるフレームワークである。
このフレームワークは、異なる回答タイプに応じて質問を分類し、それぞれ異なる書き直しと検証スキームを適用する。
RFTに適用した場合、20kのMCQAサンプルを変換し、GRPOを用いてQwen2.5-VLモデルを微調整する。
ReVeL-OpenQAでトレーニングされたモデルは、MCQAの複数のベンチマークでMCQAの精度と一致し、OpenQAの精度を約6ポイント改善し、MCQAベースのトレーニングよりも優れたデータ効率と堅牢な報酬信号を示す。
評価に使用する場合、ReVeLはMCQAベンチマーク(OpenQAに関連して)のスコアインフレーションの最大20パーセントのポイントを明らかにし、判定精度を改善し、コストとレイテンシの両方を削減する。
コードとデータを公開します。
関連論文リスト
- MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。
オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文 参考訳(メタデータ) (2025-06-18T07:49:13Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA [19.78468832417275]
モデルの基礎となる知識を捕捉し、明らかにする新しいスコアを導入します。
これらの結果から,LLaMA2-7Bでは知識抽出が最大16%向上した。
モデルが正しい答えを明示的に知っている単純な合成データセットの精度は、ほぼ60%向上する。
論文 参考訳(メタデータ) (2024-10-03T09:53:48Z) - Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Few-shot Reranking for Multi-hop QA via Language Model Prompting [56.454088569241534]
オープンドメイン質問を用いたマルチホップQAにおける数点のリランクについて検討した。
本稿では,マルチホップパスの再ランク付けを促す大規模言語モデルに依存するPromptRankを提案する。
PromptRankは、HotpotQA上で128のトレーニング例で強力な検索性能を得る。
論文 参考訳(メタデータ) (2022-05-25T10:45:55Z) - Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization [29.797379277423143]
応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-22T23:44:35Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。