論文の概要: Answer Self-Consistency with Margin-Triggered Question Re-Arbitration for the CVPR 2026 VidLLMs Challenge
- arxiv url: http://arxiv.org/abs/2606.04323v1
- Date: Wed, 03 Jun 2026 00:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.453199
- Title: Answer Self-Consistency with Margin-Triggered Question Re-Arbitration for the CVPR 2026 VidLLMs Challenge
- Title(参考訳): CVPR 2026 VidLLMs チャレンジに対するMargin-Triggered Question Re-Arbitration による自己整合性の検討
- Authors: Tomoya Miyazawa, Hiroyasu Okuno,
- Abstract要約: CVPR 2026 VidLLMs Challenge のトラック2の解について述べる。
このトラックはビデオにおける視覚的推論を評価し、モデルは常にはっきりと見えない関係を推論しなければならない。
マルチモーダル推論モデル上に構築された学習不要なテスト時間推論フレームワークであるASCを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present our solution for Track 2 of the CVPR 2026 VidLLMs Challenge. This track evaluates visual relational reasoning in videos, where models must infer relations that are not always explicitly visible. We propose Answer Self-Consistency with Margin-Triggered Question Re-Arbitration (ASC-MQRA), a training-free test-time reasoning framework built on a multimodal reasoning model. The core ASC component performs multiple stochastic video question-answering runs and aggregates their answer choices through answer-level self-consistency. This substantially improves over single-pass inference and forms our final test submission. We further study MQRA, a conditional re-arbitration module for low-margin examples where the first-stage vote distribution indicates uncertainty. Our vote-margin analysis shows that low-margin examples often retain the ground-truth answer among the top candidates, motivating MQRA to narrow the candidate set and re-watch the video only over the retained candidates. On validation, MQRA further improves over ASC, indicating that low-margin vote distributions can provide a useful uncertainty signal. On test, however, MQRA slightly degrades performance relative to ASC, suggesting that re-arbitration is sensitive to the size and category distribution of the triggered subset. Our final test submission therefore uses ASC without re-arbitration, achieving 72.73 average accuracy and 78.34 category-wise macro average accuracy on validation, and 81.16 average accuracy and 80.91 category-wise macro average accuracy on test. This report details our prompting strategy, implementation setup, ablation studies, and diagnostic analyses. The code is available at https://github.com/data-analytics-labo/ASC-MQRA
- Abstract(参考訳): 本報告では,CVPR 2026 VidLLMs Challenge のトラック2の解について述べる。
このトラックはビデオにおける視覚的リレーショナル推論を評価し、モデルは常に明確に見えない関係を推論しなければならない。
マルチモーダル推論モデル上に構築されたトレーニング不要なテスト時間推論フレームワークであるASC-MQRA(Answer Self-Consistency with Margin-Triggered Question Re-Arbitration)を提案する。
コアASCコンポーネントは、複数の確率的ビデオ質問応答を実行し、回答レベルの自己整合性を通じて回答選択を集約する。
これはシングルパス推論を大幅に改善し、最終テストのサブミッションを形成します。
さらに,第1段階の投票分布が不確実性を示す低マージン事例に対する条件付き再配置モジュールMQRAについて検討する。
我々の投票マージン分析は、低いマージンの例が上位候補の真剣な答えを保ち、MQRAが候補を絞り込み、残った候補に対してのみビデオを見直す動機となっていることを示している。
検証では、MQRAはASCよりもさらに改善され、低マージンの投票分布が有用な不確実性信号を提供することを示す。
しかし、テストではMQRAはASCと比較して若干性能が低下し、再配置はトリガサブセットのサイズとカテゴリ分布に敏感であることが示唆された。
最終試験では, 72.73の平均精度, 78.34カテゴリーのマクロ平均精度, 81.16カテゴリのマクロ平均精度, 80.91カテゴリのマクロ平均精度が得られた。
本報告では,本研究の推進戦略,実施体制,アブレーション研究,診断分析について詳述する。
コードはhttps://github.com/data-analytics-labo/ASC-MQRAで公開されている。
関連論文リスト
- Boosting Self-Consistency with Ranking [56.38798757709555]
自己整合性は、複数の推論パスをサンプリングし、最も頻繁な回答を選択することで、大きな言語モデルを改善する。
この制限は、自己整合性における解答選択をランク付け問題として再構成する、ランク付け改善自己整合性(RISC)に対処する。
論文 参考訳(メタデータ) (2026-06-03T16:12:30Z) - Adaptive Dense Evidence Refinement for Video Relational Reasoning for VRR-QA Challenge [15.724849094439987]
本稿では,適応型テスト時間計算を中心に構築された推論のみのシステムを提案する。
システムはまず、各質問に直接ビデオ言語モデルパスで答え、続いて複数の軽量ビューを使用して不安定な質問を見つける。
テストスプリットでは、最終システムは90.07平均精度と87.81マクロ平均精度を得る。
論文 参考訳(メタデータ) (2026-05-31T08:45:06Z) - CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency [10.34950275095264]
本研究では,モデル応答分布の特異なモードとして,あらかじめ指定した対象解の任意の正当性検証について検討する。
本稿では,任意の所定のレベルで偽認証を確実に制御するCITEアルゴリズムを用いた区間統一試験による認証を提案する。
また、カテゴリセットなしの停止時間率を証明し、メインレジーム内の定数に一致するミニマックスの下限を確立し、信頼度の高い投票に拡張する。
論文 参考訳(メタデータ) (2026-05-07T08:41:51Z) - Knowing When to Answer: Adaptive Confidence Refinement for Reliable Audio-Visual Question Answering [15.39457034915546]
我々は,textitReliable Audio-Visual Question Answering (mathcalR$-AVQA) に公式な問題を定式化する。
本稿では,$mathcalR$-AVQAの性能を高める軽量な手法であるAdaptive Confidence Refinement (ACR)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:35:33Z) - Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT [25.508458982314284]
複数選択質問応答(MCQA)は、現代のマルチモーダル言語モデルのRFTの評価と強化のための一般的なフォーマットである。
ReVeL(ReVeL)は,複数の質問をオープンな質問に書き換えるフレームワークである。
論文 参考訳(メタデータ) (2025-11-21T17:06:37Z) - Quantifying and Mitigating Selection Bias in LLMs: A Transferable LoRA Fine-Tuning and Efficient Majority Voting Approach [13.829059542429876]
大規模言語モデル(LLM)の性能評価手法として,MCQ (Multiple Choice Questioning) が広く用いられている。
LLMはMCQタスクにおいて選択バイアスを示し、その選択は内容よりも答えの位置やオプション記号などの要因に影響される。
論文 参考訳(メタデータ) (2025-11-17T21:31:37Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Machine Reading Comprehension using Case-based Reasoning [92.51061570746077]
本稿では,機械読解における解答抽出の正確かつ解釈可能な手法を提案する。
本手法は,類似した質問に対する文脈的回答が相互に意味的類似性を共有するという仮説に基づいている。
論文 参考訳(メタデータ) (2023-05-24T07:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。