論文の概要: Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2510.19592v1
- Date: Wed, 22 Oct 2025 13:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.837947
- Title: Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
- Title(参考訳): MLLMにおける無訓練ビデオ推論セグメンテーションのための非分解アテンション融合
- Authors: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim,
- Abstract要約: 本稿では,2つのメカニズムを通じて注意マップを改良するDecomposed Attention Fusion (DecAF)を提案する。
この方法は、無関係なアクティベーションを抑制し、オブジェクト中心のキューを強化し、アテンションマップを粗いセグメンテーションマスクへ直接変換する。
DecAFはトレーニングフリーのメソッドより優れており、VOSベンチマークの参照と推論の両方でトレーニングベースのメソッドに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 31.448022100834823
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、テキストクエリに関連する視覚トークンに出席することで、強力なビデオ理解を示す。
映像推論セグメンテーションをビデオQAタスクとして使用し,ロールアウト機構によるアテンションマップの抽出を行う。
しかし、生のアテンションマップは騒々しく、対象領域との不整合である。
本稿では,(1)対照的な対象背景核融合と(2)相補的なビデオフレーム核融合の2つのメカニズムにより,これらのマップを改良する分解注意核融合(DecAF)を提案する。
この方法は、無関係なアクティベーションを抑制し、オブジェクト中心のキューを強化し、アテンションマップを粗いセグメンテーションマスクへ直接変換する。
さらに,注意誘導SAM2により,きめ細かいマスクの取得が可能となった。
SAMとMLLMを共同でトレーニングする既存の方法とは異なり、本手法は再トレーニングなしで完全に動作します。
DecAFはトレーニングフリーのメソッドより優れており、VOSベンチマークの参照と推論の両方でトレーニングベースのメソッドに匹敵するパフォーマンスを実現している。
コードはhttps://github.com/HYUNJS/DecAF.comから入手できる。
関連論文リスト
- Phantom-Insight: Adaptive Multi-cue Fusion for Video Camouflaged Object Detection with Multimodal LLM [5.817528321487845]
動的環境のため,ビデオカモフラージュ物体検出(VCOD)は困難である。
既存の手法では,(1)モデル凍結によるカモフラージュされたオブジェクトエッジの分離に苦慮するSAMベース手法,(2)MLLMベースの手法では,大きな言語モデルが前景と背景を融合することにより,オブジェクトの分離性が低下する,という2つの問題に直面している。
本稿では,SAMとMLLMに基づく新しいVCOD法であるPhantom-Insightを提案する。
論文 参考訳(メタデータ) (2025-09-08T08:17:47Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting [23.76682709034273]
AuralSAM2は、新しいAuralFuserモジュールで構成されており、SAM2に外部にアタッチして異なるモジュールの機能を統合している。
この統合は、機能ピラミッドによって促進され、セマンティック理解をさらに洗練し、オブジェクトの認識を高める。
公開ベンチマークの結果から,本手法は従来の手法よりも顕著に改善されていることが示唆された。
論文 参考訳(メタデータ) (2025-06-01T13:57:42Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。