論文の概要: When Choices Become Priors: Contrastive Decoding for Scientific Figure Multiple-Choice QA
- arxiv url: http://arxiv.org/abs/2603.28026v1
- Date: Mon, 30 Mar 2026 04:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.228184
- Title: When Choices Become Priors: Contrastive Decoding for Scientific Figure Multiple-Choice QA
- Title(参考訳): 選択が優先されるとき - 科学的フィギュアマルチコースQAのコントラストデコーディング
- Authors: Taeyun Roh, Eun-yeong Jo, Wonjune Jang, Jaewoo Kang,
- Abstract要約: SCICONは、画像条件付きからテキストのみのオプションスコアを減じて、各候補をスコアする訓練不要の復号法である。
3つの科学的フィギュアQAベンチマークと3つのモデルバックボーンで、SCICONは標準デコードベースラインよりも精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 14.554199342275588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific figure multiple-choice question answering (MCQA) requires models to reason over diverse visual evidence, ranging from charts and multipanel figures to microscopy and biomedical images. However, this setting suffers from a distinctive bias: answer choices themselves can act as priors, steering multimodal models toward scientifically plausible options even when the figure supports a different answer. We investigate this failure mode through a simple question: what if decoding explicitly discounts what the model would prefer from text alone, so as to favor figure-grounded evidence? To this end, we propose SCICON, a training-free decoding method that scores each candidate by subtracting a text-only option score from its image-conditioned counterpart. Unlike prior contrastive decoding approaches that mitigate hallucinations by contrasting original inputs with distorted images or perturbed instructions, SCICON directly targets the choice-induced prior encoded in candidate text. Across three scientific figure QA benchmarks and three model backbones, SCICON consistently improves accuracy over standard decoding baselines. These results show that decoding against choice-induced priors is an effective and simple way to improve figure-grounded reasoning in scientific MCQA.
- Abstract(参考訳): 科学的フィギュアマルチ選択質問応答(MCQA)は、チャートやマルチパネルフィギュアから顕微鏡やバイオメディカル画像まで、様々な視覚的証拠を推論するモデルを必要とする。
しかし、この設定は独特なバイアスに悩まされている: 答えの選択自体が先行として振る舞うことができ、図が別の答えをサポートする場合でも、科学的に妥当な選択肢に向けてマルチモーダルモデルを操る。
簡単な質問を通じて、この障害モードを調査する。デコードによって、モデルがテキスト単独で好むものを明示的に非表示にすれば、図形的な証拠が好まれる。
そこで本稿では,SCICONを提案する。SCICONは,画像条件付きからテキストのみのオプションスコアを減算することで,各候補をスコアする学習自由復号法である。
元の入力を歪んだ画像や摂動命令と対比することで幻覚を緩和する従来のコントラストデコーディングアプローチとは異なり、SCICONは選択によって引き起こされる先行符号化を候補テキストで直接ターゲットとする。
3つの科学的フィギュアQAベンチマークと3つのモデルバックボーンで、SCICONは標準デコードベースラインよりも精度を一貫して改善する。
これらの結果から,選択誘導前駆者に対する復号化は,科学的MCQAにおける図形的推論を改善するための効果的かつ簡便な方法であることが示唆された。
関連論文リスト
- Leveraging Data to Say No: Memory Augmented Plug-and-Play Selective Prediction [40.16419917667614]
本稿では,視覚言語基盤モデルの選択的予測について考察する。
我々は、どんな基礎モデルにも適用可能な、低複雑さのトレーニング不要なアプローチを模索する。
我々は,(1)視覚言語表現の不安定性,(2)画像テキストの埋め込みのばらつき,(2)類似度スコアのキャリブレーションの低下,の2つの主要な課題を識別する。
論文 参考訳(メタデータ) (2026-01-30T05:10:34Z) - Visual Programmability: A Guide for Code-as-Thought in Chart Understanding [37.44645754630439]
検証可能なシンボリックフォーマットでチャートの視覚情報を表現するためのCode-as-Thought(CaT)アプローチを提案する。
ビジュアルプログラマビリティ(Visual Programmability)は、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティである。
我々はこの概念を,視覚言語モデル(VLM)がCaT経路と直接視覚推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
論文 参考訳(メタデータ) (2025-09-11T09:22:16Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [57.62831463679979]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - Reverse Multi-Choice Dialogue Commonsense Inference with
Graph-of-Thought [44.80239245596408]
ダイアログ・コモンセンス・マルチ選択質問回答(DC-MCQ)タスクは,ユーザクエリや意図の理解という課題への対応として登場した。
本稿では,3段階のReverse Exclusion Graph-of-Thought(ReX-GoT)フレームワークを提案する。
特に、我々のReX-GoTは、無関係な選択肢を徐々に排除し、GoTの最適経路を選択するためのオプションエラーの理由を学習することで、人間の推論を模倣します。
論文 参考訳(メタデータ) (2023-12-23T16:18:47Z) - Rethinking Cross-Subject Data Splitting for Brain-to-Text Decoding [35.302150900816635]
我々は、fMRIとEEG信号をテキストに復号するために、データ漏洩のない正しいクロスオブジェクトデータ分割基準を開発する。
いくつかのSOTA脳からテキストへの復号モデルは、さらなる研究のために提案された基準で正しく評価される。
論文 参考訳(メタデータ) (2023-12-18T07:22:39Z) - Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval [14.986283867293048]
ゼロショット合成画像検索(ZS-CIR)は、テキスト修正と参照画像をクエリとして行い、トリプルトラベルなしでターゲット画像を取得する。
現在のZS-CIRの研究は、主に事前訓練された視覚言語モデルの一般化能力に依存している。
本稿では,事前学習された視覚言語モデルと下流CIRタスクとのギャップを小さくする,未ラベルで事前学習されたマスク付きチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T02:49:57Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Generating Correct Answers for Progressive Matrices Intelligence Tests [88.78821060331582]
Ravenのプログレッシブマトリクス(Progressive Matrices)は、複数選択のインテリジェンステストである。
このテストに対処する以前の試みは、複数の選択肢の中から正しい回答を選択することに集中していました。
この作業では、代わりに、定義によって難しいタスクである選択を見ることなく、グリッドに与えられた正しい回答を生成することに焦点を合わせます。
論文 参考訳(メタデータ) (2020-11-01T13:21:07Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。