論文の概要: TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering
- arxiv url: http://arxiv.org/abs/2603.09696v1
- Date: Tue, 10 Mar 2026 14:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.360473
- Title: TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering
- Title(参考訳): TemporalDoRA: 一時PEFTによるロバストな手術ビデオ質問応答
- Authors: Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque,
- Abstract要約: 重み分解低ランク適応を拡張したビデオ特異的PEFT定式化であるTemporalDoRAを紹介する。
適応部分空間内のフレーム間で情報を混ぜることで、TemporalDoRAは時間的に一貫した視覚的手がかりに向けて更新を行う。
- 参考スコア(独自算出の注目度): 12.77631688698326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical Video Question Answering (VideoQA) requires accurate temporal grounding while remaining robust to natural variation in how clinicians phrase questions, where linguistic bias can arise. Standard Parameter Efficient Fine Tuning (PEFT) methods adapt pretrained projections without explicitly modeling frame-to-frame interactions within the adaptation pathway, limiting their ability to exploit sparse temporal evidence. We introduce TemporalDoRA, a video-specific PEFT formulation that extends Weight-Decomposed Low-Rank Adaptation by (i) inserting lightweight temporal Multi-Head Attention (MHA) inside the low-rank bottleneck of the vision encoder and (ii) selectively applying weight decomposition only to the trainable low-rank branch rather than the full adapted weight. This design enables temporally-aware updates while preserving a frozen backbone and stable scaling. By mixing information across frames within the adaptation subspace, TemporalDoRA steers updates toward temporally consistent visual cues and improves robustness with minimal parameter overhead. To benchmark this setting, we present REAL-Colon-VQA, a colonoscopy VideoQA dataset with 6,424 clip--question pairs, including paired rephrased Out-of-Template questions to evaluate sensitivity to linguistic variation. TemporalDoRA improves Out-of-Template performance, and ablation studies confirm that temporal mixing inside the low-rank branch is the primary driver of these gains. We also validate on EndoVis18-VQA adapted to short clips and observe consistent improvements on the Out-of-Template split. Code and dataset available at~\href{https://anonymous.4open.science/r/TemporalDoRA-BFC8/}{Anonymous GitHub}.
- Abstract(参考訳): 外科的ビデオ質問回答 (VideoQA) は正確な時間的根拠を必要とするが、臨床医が質問をどう言い表すか、言語的バイアスが発生するかは、自然な変化に頑健である。
標準パラメータ効率的なファインチューニング(PEFT)法は、適応経路内のフレーム間相互作用を明示的にモデル化することなく、事前訓練されたプロジェクションに適応し、スパース時間的証拠を利用する能力を制限する。
我々は、重み分解低ランク適応を拡張したビデオ特異的PEFT定式化であるTemporalDoRAを紹介する。
一 視覚エンコーダの低ランクボトルネック内に軽量時間的マルチヘッド注意(MHA)を挿入すること。
(II) 重量分解をフル適応重量ではなくトレーニング可能な低ランク分岐のみに選択的に適用すること。
この設計は、凍結したバックボーンと安定したスケーリングを維持しながら、時間的に認識された更新を可能にする。
適応部分空間内のフレーム間で情報を混ぜることで、TemporalDoRAは時間的に一貫した視覚的手がかりにアップデートし、最小のパラメータオーバーヘッドで堅牢性を改善する。
この設定をベンチマークするために,REAL-Colon-VQAという,6,424対のクリップ検索ペアを用いた大腸内視鏡的ビデオQAデータセットを提案する。
TemporalDoRAはテンプレートのアウト・オブ・テンプレートの性能を改善し、低ランクブランチ内の時間的混合がこれらの利得の第一の要因であることを確認した。
また、短いクリップに適応したEndoVis18-VQAを検証するとともに、Out-of-Templateスプリットにおける一貫した改善を観察する。
コードとデータセットは、~\href{https://anonymous.4open.science/r/TemporalDoRA-BFC8/}{Anonymous GitHub}で入手できる。
関連論文リスト
- GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning [51.79350934271497]
GateRAは、PEFT更新の強度を動的に調整するトークン対応変調を導入する統一フレームワークである。
適応ゲーティングを標準のPEFTブランチに組み込むことで、Gateraは選択的でトークンレベルの適応を可能にする。
複数のコモンセンス推論ベンチマークの実験により、GateRAはPEFT法よりも一貫して優れ、一致していることが示された。
論文 参考訳(メタデータ) (2025-11-15T17:55:47Z) - PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding [11.424693319143715]
外科領域におけるビデオ質問応答 (Video Question Answering, VideoQA) は, 時間的に整合した事象をAIモデルで推論することで, 術中理解を高めることを目的としている。
静的画像から動的手術シーンへの視覚的推論を拡張するモデルであるSurgViVQAを提案する。
Masked Video-Textを使ってビデオと質問機能を融合し、モーションやツール間のインタラクションなどの時間的手がかりをキャプチャする。
論文 参考訳(メタデータ) (2025-11-05T09:40:16Z) - SurgAnt-ViVQA: Learning to Anticipate Surgical Events through GRU-Driven Temporal Cross-Attention [10.149538951173598]
鼻腔鏡下下下垂体手術のリアルタイム支援には,今後の外科的事象の予測が不可欠である。
ほとんどの視覚的質問応答(VQA)システムは、静的視覚言語アライメントを持つ独立したフレームを推論する。
先見的外科的推論のために設計された最初のVQAデータセットであるPitVQA-Anticipationを紹介する。
論文 参考訳(メタデータ) (2025-11-05T04:55:11Z) - EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting [50.794700596484894]
IntroPE(Entropy-Guided Dynamic Patch)は,条件付きエントロピーによる遷移点を動的に検出する新しい時間情報フレームワークである。
これは、パッチの計算上の利点を維持しながら、時間構造を保存する。
長期予測ベンチマークによる実験では、EntroPEは精度と効率の両方を改善している。
論文 参考訳(メタデータ) (2025-09-30T12:09:56Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches [3.7873597471903944]
本稿では,個別のフレームベースアプローチに時間的整合性を加えるための,可変時間パラメータRT-GANを用いた軽量な解を提案する。
大腸内視鏡検査における2症例に対するアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2023-10-02T03:13:26Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering [73.11017833431313]
マルチモーダルなビデオ質問応答は、正しい回答を予測し、その質問に関連する時間的境界をローカライズすることを目的としている。
我々は、QAアノテーションのみを使用する、弱い教師付き質問基盤(WSQG)の設定を考案する。
フレームと字幕の対応をフレーム字幕(FS)に変換し,時間的注意スコアの最適化を支援する。
論文 参考訳(メタデータ) (2022-09-08T07:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。