論文の概要: Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2512.24591v1
- Date: Wed, 31 Dec 2025 03:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.551564
- Title: Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning
- Title(参考訳): ディシジョン・アンビグニティー誘導型補強による視覚的質問応答の少ない変化検出の改良
- Authors: Fuyu Dong, Ke Li, Di Wang, Nan Luo, Yiming Zhang, Kaiyu Li, Jianfei Yang, Quan Wang,
- Abstract要約: 変化検出視覚質問応答 (CDVQA) は、両時間的リモートセンシング画像における意味的変化を推論することで、テキストクエリに応答する必要がある。
直感的なアプローチは、教師付き微調整(SFT)によって一般的な視覚言語モデルでCDVQAのパフォーマンスを向上させることである。
我々は、まず、SFT訓練された参照ポリシーを用いてDASをマイニングし、次いで、マイニングされたサブセットにグループ相対的なポリシー最適化を適用するDARFT(DarFT-Ambiguity-guided Reinforcement Fine-Tuning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.249022698727856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Change detection visual question answering (CDVQA) requires answering text queries by reasoning about semantic changes in bi-temporal remote sensing images. A straightforward approach is to boost CDVQA performance with generic vision-language models via supervised fine-tuning (SFT). Despite recent progress, we observe that a significant portion of failures do not stem from clearly incorrect predictions, but from decision ambiguity, where the model assigns similar confidence to the correct answer and strong distractors. To formalize this challenge, we define Decision-Ambiguous Samples (DAS) as instances with a small probability margin between the ground-truth answer and the most competitive alternative. We argue that explicitly optimizing DAS is crucial for improving the discriminability and robustness of CDVQA models. To this end, we propose DARFT, a Decision-Ambiguity-guided Reinforcement Fine-Tuning framework that first mines DAS using an SFT-trained reference policy and then applies group-relative policy optimization on the mined subset. By leveraging multi-sample decoding and intra-group relative advantages, DARFT suppresses strong distractors and sharpens decision boundaries without additional supervision. Extensive experiments demonstrate consistent gains over SFT baselines, particularly under few-shot settings.
- Abstract(参考訳): 変化検出視覚質問応答 (CDVQA) は、両時間リモートセンシング画像における意味的変化を推論することで、テキストクエリーに応答する必要がある。
直感的なアプローチは、教師付き微調整(SFT)によって一般的な視覚言語モデルでCDVQAのパフォーマンスを向上させることである。
近年の進歩にもかかわらず、失敗のかなりの部分は、明確な誤った予測ではなく、モデルが正しい回答と強い注意散らしに類似した信頼を割り当てる決定の曖昧さによるものであることが観察されている。
この課題を定式化するために、決定曖昧なサンプル(DAS)を、基礎的真実解と最も競争力のある選択肢の間の小さな確率差のインスタンスとして定義する。
DASを明示的に最適化することはCDVQAモデルの識別性と堅牢性を向上させるために重要であると我々は主張する。
そこで本研究では,まず,SFTで訓練された参照ポリシを用いてDASをマイニングし,そのサブセットにグループ相対的ポリシー最適化を適用するDARFTを提案する。
マルチサンプルデコーディングとグループ内相対的優位性を活用することで、DARFTは強力なイントラクタを抑え、追加の監督なしに決定境界を鋭くする。
大規模な実験では、SFTベースラインよりも一貫した利得を示す。
関連論文リスト
- LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation [18.178060190776858]
GRPOの新たな拡張であるBPGOを導入し、セマンティックな先行アンカーを通して報酬の不確実性を明示的にモデル化する。
BPGOは一貫して強いセマンティックアライメントを提供し、知覚の忠実度を高め、標準GRPOや最近の変種よりも早く収束する。
論文 参考訳(メタデータ) (2025-11-24T09:29:30Z) - From Sequential to Recursive: Enhancing Decision-Focused Learning with Bidirectional Feedback [25.1037007382501]
DFL(Decision- Focus Learning)は、従来の予測テーマ最適化(PTO)パイプラインに代わる、エンドツーエンドの強力な代替手段として登場した。
既存のDFLフレームワークは、厳密なシーケンシャルな構造によって制限され、シーケンシャルなDFL(S-DFL)と呼ばれる。
論文 参考訳(メタデータ) (2025-11-11T09:40:58Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models [0.026861992804651083]
本稿では拡散生成集合から最も信頼できるSRサンプルを特定するための堅牢なフレームワークを提案する。
本稿では,意味的類似性に基づいてSR信頼性を定量化するハイブリッド尺度TWSを提案する。
アウトプットを人間の期待と意味的正しさに合わせることで、この研究は生成的SRにおける信頼性の新たなベンチマークを定めている。
論文 参考訳(メタデータ) (2025-06-25T21:00:44Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。