論文の概要: Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2510.19592v1
- Date: Wed, 22 Oct 2025 13:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.837947
- Title: Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation
- Title(参考訳): MLLMにおける無訓練ビデオ推論セグメンテーションのための非分解アテンション融合
- Authors: Su Ho Han, Jeongseok Hyun, Pilhyeon Lee, Minho Shim, Dongyoon Wee, Seon Joo Kim,
- Abstract要約: 本稿では,2つのメカニズムを通じて注意マップを改良するDecomposed Attention Fusion (DecAF)を提案する。
この方法は、無関係なアクティベーションを抑制し、オブジェクト中心のキューを強化し、アテンションマップを粗いセグメンテーションマスクへ直接変換する。
DecAFはトレーニングフリーのメソッドより優れており、VOSベンチマークの参照と推論の両方でトレーニングベースのメソッドに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 31.448022100834823
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a training-free manner, we cast video reasoning segmentation as a video QA task and extract attention maps via rollout mechanism. However, raw attention maps are noisy and poorly aligned with object regions. We propose Decomposed Attention Fusion (DecAF), which refines these maps through two mechanisms: (1) contrastive object-background fusion and (2) complementary video-frame fusion. This method suppresses irrelevant activations and enhances object-focused cues, enabling direct conversion of attention maps into coarse segmentation masks. In addition, we introduce attention-guided SAM2 prompting for obtaining fine-grained masks. Unlike existing methods that jointly train MLLMs with SAM, our method operates entirely without retraining. DecAF outperforms training-free methods and achieves performance comparable to training-based methods on both referring and reasoning VOS benchmarks. The code will be available at https://github.com/HYUNJS/DecAF.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、テキストクエリに関連する視覚トークンに出席することで、強力なビデオ理解を示す。
映像推論セグメンテーションをビデオQAタスクとして使用し,ロールアウト機構によるアテンションマップの抽出を行う。
しかし、生のアテンションマップは騒々しく、対象領域との不整合である。
本稿では,(1)対照的な対象背景核融合と(2)相補的なビデオフレーム核融合の2つのメカニズムにより,これらのマップを改良する分解注意核融合(DecAF)を提案する。
この方法は、無関係なアクティベーションを抑制し、オブジェクト中心のキューを強化し、アテンションマップを粗いセグメンテーションマスクへ直接変換する。
さらに,注意誘導SAM2により,きめ細かいマスクの取得が可能となった。
SAMとMLLMを共同でトレーニングする既存の方法とは異なり、本手法は再トレーニングなしで完全に動作します。
DecAFはトレーニングフリーのメソッドより優れており、VOSベンチマークの参照と推論の両方でトレーニングベースのメソッドに匹敵するパフォーマンスを実現している。
コードはhttps://github.com/HYUNJS/DecAF.comから入手できる。
関連論文リスト
- Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - Phantom-Insight: Adaptive Multi-cue Fusion for Video Camouflaged Object Detection with Multimodal LLM [5.817528321487845]
動的環境のため,ビデオカモフラージュ物体検出(VCOD)は困難である。
既存の手法では,(1)モデル凍結によるカモフラージュされたオブジェクトエッジの分離に苦慮するSAMベース手法,(2)MLLMベースの手法では,大きな言語モデルが前景と背景を融合することにより,オブジェクトの分離性が低下する,という2つの問題に直面している。
本稿では,SAMとMLLMに基づく新しいVCOD法であるPhantom-Insightを提案する。
論文 参考訳(メタデータ) (2025-09-08T08:17:47Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting [23.76682709034273]
AuralSAM2は、新しいAuralFuserモジュールで構成されており、SAM2に外部にアタッチして異なるモジュールの機能を統合している。
この統合は、機能ピラミッドによって促進され、セマンティック理解をさらに洗練し、オブジェクトの認識を高める。
公開ベンチマークの結果から,本手法は従来の手法よりも顕著に改善されていることが示唆された。
論文 参考訳(メタデータ) (2025-06-01T13:57:42Z) - Context-Aware Weakly Supervised Image Manipulation Localization with SAM Refinement [52.15627062770557]
悪意のある画像操作は社会的リスクを生じさせ、効果的な画像操作検出方法の重要性を高めている。
画像操作検出の最近のアプローチは、完全に教師されたアプローチによって大きく推進されている。
本稿では,デュアルブランチトランスフォーマー-CNNアーキテクチャに基づく,弱教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:35:09Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。