論文の概要: Affordance-First Decomposition for Continual Learning in Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2512.00694v1
- Date: Sun, 30 Nov 2025 02:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.365035
- Title: Affordance-First Decomposition for Continual Learning in Video-Language Understanding
- Title(参考訳): ビデオ言語理解における継続学習のためのアフォーマンス第一分解法
- Authors: Mengzhu Xu, Hanzhi Liu, Ningkang Peng, Qianyu Chen, Canran Xiao,
- Abstract要約: Affordance-First Decomposition: ビデオは徐々に変化する価格トークンにマッピングされる。
軽量でクエリに制限のあるコンフリクト対応のスケジューラは、適応に集中し、必要な時にのみキャパシティを拡大する。
最先端プロトコル:51.6%の平均精度で、ドメインインクリメンタルなビデオQAを1.8%忘れている。
- 参考スコア(独自算出の注目度): 6.496133458331798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning for video--language understanding is increasingly important as models face non-stationary data, domains, and query styles, yet prevailing solutions blur what should stay stable versus what should adapt, rely on static routing/capacity, or require replaying past videos. We aim to explicitly specify where stability lives and where plasticity should be focused under realistic memory and privacy constraints. We introduce Affordance-First Decomposition (AFD): videos are mapped to slowly varying affordance tokens that form a shared, time-aligned substrate, while a lightweight, query-routed, conflict-aware scheduler concentrates adaptation and grows capacity only when needed. The substrate is stabilized via weak alignment and teacher consistency, and training uses question-only replay. AFD achieves state-of-the-art across protocols: 51.6% average accuracy with -1.8% forgetting on domain-incremental VideoQA, ViLCo R@1@0.5 of 29.6% (MQ) and 20.7% (NLQ) with 18.4% stAP@0.25 (VQ), and 39.5% accuracy with -1.6% forgetting on time-incremental iVQA. Overall, AFD offers an explicit, interpretable split between a stable interaction-centered substrate and targeted adaptation.
- Abstract(参考訳): ビデオ言語理解のための継続的な学習は、モデルが非定常データ、ドメイン、クエリスタイルに直面しているため、ますます重要になっている。
我々は、安定性の所在と、現実的なメモリとプライバシの制約の下で塑性がどこにあるかを明確にすることを目指している。
我々はAFD(Affordance-First Decomposition)を紹介した。ビデオは徐々に変化する価格トークンにマッピングされ、共有された時間整合の基板を形成し、軽量でクエリが要求されるコンフリクト対応のスケジューラは必要に応じて適応に集中し、キャパシティを増大させる。
基板は弱いアライメントと教師の一貫性によって安定化され、トレーニングは質問のみのリプレイを使用する。
AFDは、平均精度51.6%、ドメインインクリメンタルビデオQAを1.8%、ViLCo R@1@0.5を29.6%(MQ)、20.7%(NLQ)を18.4%、stAP@0.25(VQ)を39.5%、タイムインクリメンタルiVQを1.6%忘れている。
全体として、AFDは、安定な相互作用中心の基質とターゲット適応の間の明示的で解釈可能な分割を提供する。
関連論文リスト
- EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting [6.653834890554154]
Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化するフレームワークである。
提案手法は,一般的なベンチマークでの忘れを軽減しつつ,コミュニケーション技術タスクのドメイン性能を向上する。
論文 参考訳(メタデータ) (2025-10-10T08:55:32Z) - Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment [5.380078543698624]
マルチチャンネルオーディオアライメントは、生体音響モニタリング、空間オーディオシステム、音響ローカライゼーションにおいて重要な要件である。
マルチチャンネル音声同期を改善するために,クロスアテンション機構と信頼度重み付けスコアリングを組み合わせた手法を提案する。
提案手法は,BioDCASE 2025 Task 1 チャレンジにおいて,ディープラーニングベースラインの 0.58 に対して,テストデータセットの平均 0.30 MSE で1位となった。
論文 参考訳(メタデータ) (2025-09-21T05:14:06Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Uncertainty-quantified Rollout Policy Adaptation for Unlabelled Cross-domain Temporal Grounding [59.09971455857609]
Video Temporal Groundingは、長いビデオの中で自然言語の記述と一致するビデオセグメントを時間的に見つけることを目的としている。
本稿では,データ効率のよいクロスドメイン時間グラウンド法を提案する。
この方法では、ターゲットアノテーションの必要性を排除し、計算とストレージの両方のオーバーヘッドをリアルタイムで実行できるほど低く保つ。
論文 参考訳(メタデータ) (2025-08-08T13:47:00Z) - Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment [63.811519474030234]
本稿では,フレームの時間的矛盾を定量化するための知覚指向アプローチを提案する。
人間の視覚システムに触発され,不整合誘導時間モジュールを開発した。
我々の手法は最先端のVQA手法よりも優れています。
論文 参考訳(メタデータ) (2024-12-25T15:43:41Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Learning Temporal Consistency for Source-Free Video Domain Adaptation [16.230405375192262]
実世界のアプリケーションでは、ソースビデオ領域の主題とシーンは、対象のビデオ領域の主題と無関係であるべきである。
このような問題に対処するため、より実用的なドメイン適応シナリオを、SFVDA(Source-Free Video-based Domain Adaptation)として定式化している。
本稿では,時間的一貫性を学習してSFVDAに対処するための新しい注意時間一貫性ネットワーク(ATCoN)を提案する。
論文 参考訳(メタデータ) (2022-03-09T07:33:36Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文 参考訳(メタデータ) (2020-10-19T13:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。