論文の概要: Towards Mitigating Modality Bias in Vision-Language Models for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2601.21078v1
- Date: Wed, 28 Jan 2026 22:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.454855
- Title: Towards Mitigating Modality Bias in Vision-Language Models for Temporal Action Localization
- Title(参考訳): 時間的行動局所化のための視覚言語モデルにおけるモダリティバイアスの緩和に向けて
- Authors: Jiaqi Li, Guangming Wang, Shuntian Zheng, Minzhe Ni, Xiaoman Lu, Guanghui Ye, Yu Guan,
- Abstract要約: 本稿では、TALにおけるモダリティバイアスを軽減する視覚言語集約フレームワークであるActionVLMを提案する。
私たちの重要な洞察は、視覚を主流の信号として保存し、有利な場合にのみ適応的に言語を利用することです。
THUMOS14の実験では、我々のモデルは最先端の3.2%mAPよりも優れていた。
- 参考スコア(独自算出の注目度): 20.179748846776995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Localization (TAL) requires identifying both the boundaries and categories of actions in untrimmed videos. While vision-language models (VLMs) offer rich semantics to complement visual evidence, existing approaches tend to overemphasize linguistic priors at the expense of visual performance, leading to a pronounced modality bias. We propose ActionVLM, a vision-language aggregation framework that systematically mitigates modality bias in TAL. Our key insight is to preserve vision as the dominant signal while adaptively exploiting language only when beneficial. To this end, we introduce (i) a debiasing reweighting module that estimates the language advantage-the incremental benefit of language over vision-only predictions-and dynamically reweights language modality accordingly, and (ii) a residual aggregation strategy that treats language as a complementary refinement rather than the primary driver. This combination alleviates modality bias, reduces overconfidence from linguistic priors, and strengthens temporal reasoning. Experiments on THUMOS14 show that our model outperforms state-of-the-art by up to 3.2% mAP.
- Abstract(参考訳): 時間的アクションローカライゼーション(TAL)では、未トリミングビデオにおけるアクションの境界とカテゴリの両方を識別する必要がある。
視覚言語モデル(VLM)は視覚的証拠を補完する豊かな意味論を提供するが、既存のアプローチは視覚的パフォーマンスを犠牲にして言語的先行を過度に強調し、明らかにモダリティバイアスをもたらす。
本稿では,talにおけるモダリティバイアスを系統的に緩和する視覚言語集約フレームワークであるActionVLMを提案する。
私たちの重要な洞察は、視覚を主流の信号として保存し、有利な場合にのみ適応的に言語を利用することです。
この目的のために紹介する。
一 言語優位性(視覚のみの予測よりも言語の漸進的利益)を推定し、それに応じて言語モダリティを動的にリウェイトするデバイアスングリウェイトモジュール
(ii) 言語を主ドライバではなく補完的な改良として扱う残留集約戦略。
この組み合わせはモダリティバイアスを緩和し、言語的先行から過剰な自信を減らし、時間的推論を強化する。
THUMOS14の実験では、我々のモデルは最先端の3.2%mAPよりも優れていた。
関連論文リスト
- Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models [7.174865411448373]
テスト時間適応時の両モード間の非因果的特徴依存を緩和する二元的プロンプト最適化フレームワーク(BiPrompt)を提案する。
視覚面では、背景のアクティベーションを抑制し、因果領域と突発領域の間の予測一貫性を強制するために、構造化された注意誘導消去を用いる。
テキスト側では、クラス埋め込みを等方的意味空間に整合させる学習可能な再中心化機構である、バランスの取れたプロンプト正規化を導入している。
論文 参考訳(メタデータ) (2026-01-05T14:22:20Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents [39.95793203302782]
本研究では,厳密な目標ベース制約を伴わずに,順序付きかつ連続的な視覚言語表現を学習するための行動時間的コヒーレンス学習(AcTOL)を提案する。
AcTOLは動画を連続的な軌跡として扱い、(1)フレーム間の意味的差異を対比して自然な順序を反映し、(2)中間フレーム間のスムーズな遷移を保証するために局所的なブラウン橋の制約を課す。
論文 参考訳(メタデータ) (2025-02-03T10:16:49Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。