論文の概要: EVIDENT: Routing MLLM Adaptation through Entity-Grounded Visual Evidence for Cross-Domain Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2605.26104v1
- Date: Mon, 25 May 2026 17:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.653131
- Title: EVIDENT: Routing MLLM Adaptation through Entity-Grounded Visual Evidence for Cross-Domain Video Temporal Grounding
- Title(参考訳): EVIDENT:クロスドメインビデオ時間グラウンドのためのエンティティ周囲の視覚的エビデンスによるMLLM適応のルーティング
- Authors: Geo Ahn, Jiwook Han, Youngrae Kim, Joonseok Lee, Jinwoo Choi,
- Abstract要約: ビデオ時間グラウンドディング(VTG)のための微調整MLLMは、ドメイン内の性能を向上するが、ドメインシフト時に大幅に劣化する。
本稿では,事前学習されたMLLMの実体意識に時間的基盤を固定するフレームワークEVIDENTを紹介する。
- 参考スコア(独自算出の注目度): 19.421119820746913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning MLLMs for Video Temporal Grounding (VTG) often improves in-domain performance but degrades sharply under domain shift. In this work, we find that this failure is primarily driven not just by unseen query concepts, but by visual domain shift, which prevents the model from coupling its learned temporal localization knowledge with its inherent entity-attention capability. To address this, we introduce EVIDENT, a parameter-efficient adaptation framework that anchors temporal grounding in the inherent entity-attention of pre-trained MLLMs by routing VTG adaptation through explicit visual entity evidence. EVIDENT consists of three components: (i) an Entity Bottleneck Adapter that transforms dense visual tokens into compact entity-level slots, (ii) an Entity-Binding Distillation loss that instills objectness priors into the semantically unstructured MLLM visual space, guiding each slot to bind to a coherent entity, and (iii) an Entity-to-eVidence gating mechanism that leverages the captured entities as evidence, steering the model to localize moments containing query-relevant entities. Together, these components enable VTG fine-tuning to rely on entity-grounded evidence rather than brittle dataset shortcuts. Experiments on cross-domain VTG benchmarks show that EVIDENT consistently improves out-of-domain robustness while preserving competitive in-domain performance with modest parameter overhead. These results suggest that entity-level grounding is an effective inductive bias for generalizable temporal localization.
- Abstract(参考訳): ビデオ時間グラウンドディング(VTG)のための微調整MLLMは、ドメイン内の性能を向上するが、ドメインシフト時に大幅に劣化する。
本研究では、この失敗は主に、目に見えないクエリの概念だけでなく、学習した時間的局所化知識と固有のエンティティ・アテンション能力との結合を防止する視覚的ドメインシフトによってもたらされる。
これを解決するために,VTG適応を明示的な視覚的実体証拠を通じてルーティングすることで,事前学習されたMLLMの固有エンティティアテンションに時間的基盤を固定するパラメータ効率適応フレームワークEVIDENTを導入する。
EVIDENTは3つのコンポーネントから構成される。
i)高密度なビジュアルトークンをコンパクトなエンティティレベルのスロットに変換するEntity Bottleneck Adapter。
二 意味的に構造化されていないMLLM視覚空間に客観性を付与し、各スロットをコヒーレントな実体に結合させるエンティティ結合蒸留損失
3) 取得したエンティティを証拠として利用し、クエリ関連エンティティを含むモーメントをローカライズするEntity-to-eVidenceゲーティングメカニズム。
これらのコンポーネントを組み合わせることで、VTGの微調整は、脆いデータセットのショートカットではなく、エンティティグラウンドのエビデンスに依存することができる。
クロスドメインVTGベンチマークの実験では、EVIDENTはドメイン外ロバスト性を一貫して改善し、控えめなパラメータオーバヘッドを持つドメイン内の競合性能を保っている。
これらの結果は、実体レベルの接地が一般化可能な時間的局所化に有効な帰納的バイアスであることを示唆している。
関連論文リスト
- VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection [33.39250067795076]
現実のシナリオでは、天気、照明、撮像条件の連続的な変化は、大きなドメインシフトを引き起こす。
一般化オブジェクト検出(SDGOD)のための二元学習フレームワークを提案する。
符号化段階では,オブジェクト・バックグラウンドとインスタンス間モデリングの堅牢性を高めるために,クロスドメイン安定優先蒸留を提案する。
復号段階では,セマンティック・コンテキスト優先型クエリ拡張を提案する。
論文 参考訳(メタデータ) (2026-04-23T10:04:36Z) - SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding [5.9095311593289575]
SlotVTGは、MLLMを最小限のコストで、オブジェクト中心の、入力基底の視覚的推論に向けるフレームワークである。
我々のアプローチは、最小限のオーバーヘッドで競合するIn-Domain(ID)性能を維持しながら、OODロバスト性を大幅に改善します。
論文 参考訳(メタデータ) (2026-03-26T17:59:31Z) - MEMTS: Internalizing Domain Knowledge via Parameterized Memory for Retrieval-Free Domain Adaptation of Time Series Foundation Models [51.506429027626005]
Memory for Time Series (MEMTS) は、時系列予測における検索不要領域適応のための軽量かつプラグアンドプレイ方式である。
MEMTSの鍵となるコンポーネントは知識永続化モジュール(KPM)であり、ドメイン固有の時間力学を内部化する。
このパラダイムシフトにより、MEMTSは定数時間推論とニアゼロレイテンシによる正確なドメイン適応を実現することができる。
論文 参考訳(メタデータ) (2026-02-14T14:00:06Z) - RB-FT: Rationale-Bootstrapped Fine-Tuning for Video Classification [14.224783616912783]
視覚言語モデル(VLM)はマルチメディア理解にとってますます不可欠なものになりつつある。
彼らはしばしばドメイン固有のビデオ分類タスク、特に限られたデータで苦労する。
新しいアノテーションを使わずにこのギャップを埋める2段階の自己改善パラダイムを提案する。
論文 参考訳(メタデータ) (2025-11-19T23:12:18Z) - RT-DATR: Real-time Unsupervised Domain Adaptive Detection Transformer with Adversarial Feature Alignment [6.951423778505503]
CNNとトランスを用いたドメイン適応型オブジェクト検出器は、クロスドメイン検出タスクにおいて大きな進歩を遂げている。
本稿では,RT-DATRを提案する。
各種クロスドミアンベンチマークの実験結果から,本手法が現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-12T12:36:01Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - Domain Adversarial Fine-Tuning as an Effective Regularizer [80.14528207465412]
自然言語処理(NLP)では、下流タスクに転送される事前訓練された言語モデル(LM)が、最先端の結果を得るために最近示されている。
標準的な微調整は、事前トレーニング中にキャプチャされた汎用ドメイン表現を分解することができる。
本稿では,新しい正規化手法である After; 有効正規化器としてのドメイン・アダクショナル・ファイン・チューニングを提案する。
論文 参考訳(メタデータ) (2020-09-28T14:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。