論文の概要: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
- arxiv url: http://arxiv.org/abs/2510.14885v1
- Date: Thu, 16 Oct 2025 17:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.961937
- Title: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
- Title(参考訳): 回答抽出による多モーダル大言語モデルの細粒度認識能力の向上
- Authors: Logan Lawrence, Oindrila Saha, Megan Wei, Chen Sun, Subhransu Maji, Grant Van Horn,
- Abstract要約: nlg2choiceは、最小限の制約を持つタスクに対してMLLMにオープンな質問をする単純な2段階の手法である。
我々は、スループットを大幅に向上させるために、早期停止法を用いて、その選択を受ける制約応答の確率を計算する。
その結果,分類と検索の点から評価すると,7種類の細粒度視覚データセットに対して改善が見られた。
- 参考スコア(独自算出の注目度): 24.029138898778626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the renewed interest in zero-shot visual classification due to the rise of Multimodal Large Language Models (MLLMs), the problem of evaluating free-form responses of auto-regressive models remains a persistent challenge. Most existing works focus on language-only tasks or don't consider Multiple Choice Questions (MCQs) beyond 5-way options, both of which are critical capabilities to solve tasks in Fine-Grained Visual Classification (FGVC) where choice counts are in the hundreds to thousands and the choices are highly related. Furthermore, in this highly multi-way MCQ setting it is not clear how to extend LLM choice extraction to retrieval-based problems, where computing probabilities over the choice set is computationally costly. In this work we investigate nlg2choice, a simple two-stage method which first asks the MLLM an open-ended question for the task with minimal constraints, then uses text-only constrained decoding to predict the most likely choice. In retrieval settings, we compute the probability of the constrained response taking that choice with an early stopping method to significantly improve throughput. Our results show improvement over a suite of seven fine-grained visual datasets when evaluating in terms of classification and retrieval, and show that this performance holds over the various ways that users of LLMs can implement tasks in natural language.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の台頭により、ゼロショットの視覚分類への関心が高まりつつあるが、自動回帰モデルの自由形式の応答を評価するという問題は、依然として持続的な課題である。
既存の作業の多くは、言語のみのタスクにフォーカスするか、あるいは5方向オプション以上の複数の選択質問(MCQ)を考慮しない。どちらも、数百から数千の選択肢があり、選択が非常に関連性が高いFGVC(Fun-Grained Visual Classification)のタスクを解決する重要な機能である。
さらに、この高マルチウェイMCQ設定では、LLM選択抽出を検索ベース問題に拡張する方法は明確ではない。
本研究は,まずMLLMに最小限の制約のあるタスクに対してオープンな質問を行い,次にテキストのみによる制約付き復号法を用いて最も可能性の高い選択を予測する単純な2段階法であるnlg2choiceについて検討する。
検索設定では,早期停止法を用いて制約応答の確率を計算し,スループットを著しく向上させる。
本結果は,分類と検索の観点から評価を行う際に,7つの細かな視覚的データセット群に対して改善を示すとともに,LLMのユーザが自然言語でタスクを実装できる様々な方法に対して,この性能が有効であることを示す。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Option-ID Based Elimination For Multiple Choice Questions [12.30777266124562]
複数選択質問(MCQ)は、大規模言語モデル(LLM)を評価するために人気があり重要なタスクである。
本稿では,新しいオプションIDベースのPoE(textPoE_textID$)を提案する。
論文 参考訳(メタデータ) (2025-01-25T11:06:37Z) - FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。
我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文 参考訳(メタデータ) (2024-04-20T10:41:02Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z) - Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-22T05:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。