論文の概要: HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2603.06662v1
- Date: Mon, 02 Mar 2026 06:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.684295
- Title: HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding
- Title(参考訳): HyperTokens: 継続的なビデオ言語理解のためのトークンダイナミクスの制御
- Authors: Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim,
- Abstract要約: 我々は、オンデマンドで微調整トークンを生成するトランスフォーマーベースのトークンジェネレータHyperTokensを紹介する。
忘れを抑えるために,タスク固有のシャープな方向を避けるために先進的なメタインスパイアされた正規化器を提案する。
- 参考スコア(独自算出の注目度): 15.651775193923095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual VideoQA with multimodal LLMs is hindered by interference between tasks and the prohibitive cost of storing task-specific prompts. We introduce HyperTokens, a transformer-based token generator that produces fine-tuning tokens on demand, giving explicit control over prompt updates while keeping memory fixed. To suppress forgetting, we propose meta-inspired regularisers that look ahead to avoid task-specific sharp directions and anchor the evolving generator to prior tasks. We further connect our objective to sharpness-aware optimisation, providing insight into why it encourages flatter cross-task minima and improves retention. Beyond regularisation, HyperTokens exploits lightweight auxiliary multimodal supervision through shared generation weights; guided by a causal perspective, we design feasible objectives and surrogate mutual-information losses to regularise anti-causal cross-modal directions. Across two standard continual VideoQA benchmarks, HyperTokens achieves higher average accuracy with substantially lower forgetting. Finally, we introduce a challenging cross-modal ImageQA->VideoQA protocol and show that HyperTokens enables robust continual transfer in this setting.
- Abstract(参考訳): マルチモーダルLDMを用いた連続ビデオQAは、タスク間の干渉とタスク固有のプロンプトを格納することの禁止コストによって妨げられる。
要求に応じて微調整トークンを生成するトランスフォーマーベースのトークンジェネレータであるHyperTokensを導入し、メモリの固定を保ちながら、即時更新を明示的に制御する。
そこで本研究では,タスク固有のシャープな方向を避け,進化するジェネレータを先行タスクに固定する,メタインスパイアされたレギュレータを提案する。
我々はさらに、目的をシャープネスを意識した最適化に結び付け、それがなぜクロスタスクのミニマをフラットにし、保持を改善するのかについての洞察を提供する。
正規化の他に、HyperTokensは、共有世代重みによる軽量な補助的マルチモーダル監視を活用し、因果的視点でガイドされ、実現可能な目的を設計し、相互情報損失を防止し、反因果的相互モーダル方向を規則化する。
2つの標準連続ビデオQAベンチマークで、HyperTokensは平均精度をかなり低くして達成する。
最後に,画像QA->VideoQAプロトコルを導入し,HyperTokensが連続的に堅牢な転送を可能にすることを示す。
関連論文リスト
- Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding [16.537148896706036]
Video Temporal Grounding (VTG)は、クエリ関連モーメントの時間的境界を、長い、トリミングされていないビデオでローカライズする。
本稿では,セマンティックな役割を持つコンパクトだがコヒーレントなトークンサブセットを構成する,トレーニング不要なプルーニングフレームワークSemVIDを提案する。
論文 参考訳(メタデータ) (2026-03-05T20:25:32Z) - Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。
本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。
積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文 参考訳(メタデータ) (2026-02-27T08:11:06Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Feedback Control for Multi-Objective Graph Self-Supervision [17.221283574024053]
グラフ自己教師型学習(SSL)は、プリテキスト目的のツールボックスの増大を提供する。
しかし、それらを確実に組み合わせることは、客観的な干渉とトレーニングの不安定さのために課題である。
我々は、グラフSSLをフィードバック制御の時間割当として再キャストするフレームワークであるControlGを紹介した。
論文 参考訳(メタデータ) (2026-02-04T20:42:10Z) - THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening [11.026691195419453]
トランスフォーマーに基づく手法は、高スペクトルパンシャーピングにおいて強い可能性を証明している。
それらの効果は、冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
本稿では,高スペクトルパンシャーピングを向上する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
論文 参考訳(メタデータ) (2025-08-11T17:03:10Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。