論文の概要: A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2604.10506v1
- Date: Sun, 12 Apr 2026 07:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.061598
- Title: A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning
- Title(参考訳): 身体的推論における時空間幻覚対策のための視覚言語モデルの進歩的学習戦略
- Authors: Xiaoda Yang, Shuai Yang, Can Wang, Jingyang Xue, Menglan Tang, Checheng Yu, Xunzhe Zhou, Sashuai Zhou, Tao Jin, Lixin Yang, Xiangyu Yue, Zhou Zhao,
- Abstract要約: 「多像幻覚推論」では、前頭と時頭クエリ間の大規模なパフォーマンス低下は、真に理解するのではなく、表面的なショートカットへの依存を示す。
これを軽減するために、我々は、チェーンステップへの詳細な推論と決定的な判断に基づく、時間的連鎖構築という新しいデータセットを開発する。
実験により,本手法は精度を向上するだけでなく,70%以上から6.53%まで,前向きのパフォーマンスギャップも改善することが示された。
- 参考スコア(独自算出の注目度): 49.61652671596548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have made significant strides in static image understanding but continue to face critical hurdles in spatiotemporal reasoning. A major bottleneck is "multi-image reasoning hallucination", where a massive performance drop between forward and reverse temporal queries reveals a dependence on superficial shortcuts instead of genuine causal understanding. To mitigate this, we first develop a new Chain-of-Thought (CoT) dataset that decomposes intricate reasoning into detailed spatiotemporal steps and definitive judgments. Building on this, we present a progressive training framework: it initiates with supervised pre-training on our CoT dataset to instill logical structures, followed by fine-tuning with scalable weakly-labeled data for broader generalization. Our experiments demonstrate that this approach not only improves backbone accuracy but also slashes the forward-backward performance gap from over 70\% to only 6.53\%. This confirms the method's ability to develop authentic dynamic reasoning and reduce the inherent temporal biases of current VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は静的画像理解において大きな進歩を遂げてきたが、時空間推論において重要なハードルに直面し続けている。
主要なボトルネックは "multi-image reasoning hallucination"(マルチイメージ推論幻覚)である。
これを緩和するために、我々はまず、複雑な推論を詳細な時空間ステップと決定的な判断に分解する新しいCoT(Chain-of-Thought)データセットを開発する。
これに基づいて,我々は,CoTデータセットの教師付き事前トレーニングを開始し,論理構造を挿入し,さらにより広範な一般化のために,スケーラブルでラベルの弱いデータを微調整する,プログレッシブなトレーニングフレームワークを提案する。
実験により,本手法は背骨の精度を向上するだけでなく,前向きのパフォーマンスギャップを70 %以上から6.53 %程度に削減することを示した。
このことは、この手法が真の動的推論を発達させ、現在のVLMの時間バイアスを減少させる能力を確認している。
関連論文リスト
- ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration [71.21097024566285]
LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:49:50Z) - See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs [24.90876091319589]
視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。
私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。
本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
論文 参考訳(メタデータ) (2026-02-25T02:13:59Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Forest Before Trees: Latent Superposition for Efficient Visual Reasoning [61.29300723302152]
レーザーは動的ウィンドウアライメント学習(DWAL)を通して視覚的推論を再構成する新しいパラダイムである
レーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのモネを平均5.03%上回る。
論文 参考訳(メタデータ) (2026-01-11T08:30:49Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。