論文の概要: Attend to Anything: Foundation Model for Unified Human Attention Modeling
- arxiv url: http://arxiv.org/abs/2606.03540v1
- Date: Tue, 02 Jun 2026 12:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.741755
- Title: Attend to Anything: Foundation Model for Unified Human Attention Modeling
- Title(参考訳): Attend to Anything: Unified Human Attention Modelingの基礎モデル
- Authors: Wenzhuo Zhao, Ronghao Xian, Keren Fu, Qijun Zhao,
- Abstract要約: 我々は、様々な画像、ビデオ、音声・視覚的タスク、シーン間で注目モデリングを統合するマルチモーダル基盤モデルであるAttend to Anything Model (AAM)を提示する。
AAMは、ハイパボリック空間に階層的な埋め込みを持つ言語プロンプトを通じて実装された、一般から特定の階層で組織された認知的包含関係として、注意を再構築する。
16のベンチマークの実験では、AAMは様々なシナリオで平均6%の最先端メソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 23.199307554176016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing human attention (saliency) modeling methods persist as highly fragmented across modalities, scenes, and task formulations. Consequently, even with increasing model capacity and data scale, current models predominantly remain scene-dependent and task-specific, failing to practically generalize in real-world applications. To address the fundamental limitations, we present the Attend to Anything Model (AAM), a multi-modal foundation model that unifies attention modeling across various image, video, and audio-visual tasks and scenes. AAM reformulates attention as a cognitive entailment relationship organized in a general-to-specific hierarchy, implemented through language prompts with hierarchical embeddings in hyperbolic space. Furthermore, to unify static image and dynamic video attention, we adopt a fluid-dynamics perspective, formulating video-frame attention as a diffusive temporal evolution governed by the Fokker--Planck equation. Extensive experiments on 16 benchmarks demonstrate that AAM consistently outperforms state-of-the-art methods by an average of 6\% across various scenarios, while achieving approximately a 4$\times$ speedup in video inference. Overall, these results demonstrate that AAM provides a principled foundation for future research on attention and saliency-related tasks. The dataset and code will be available at https://github.com/wz-zhao/Attend-to-Anything.
- Abstract(参考訳): 既存の人間の注意(信頼性)モデリング手法は、モダリティ、シーン、タスクの定式化にまたがって高度に断片化されている。
その結果、モデル容量とデータスケールが増大しても、現在のモデルはシーンに依存し、タスク固有のままであり、現実のアプリケーションでは事実上一般化できない。
基本的制約に対処するため,様々な画像,ビデオ,音声・視覚的タスク,シーンの注目モデリングを統一するマルチモーダル基盤モデルであるAttend to Anything Model (AAM)を提案する。
AAMは、ハイパボリック空間に階層的な埋め込みを持つ言語プロンプトを通じて実装された、一般から特定の階層で組織された認知的包含関係として、注意を再構築する。
さらに、静的な画像と動的ビデオの注意を統一するために、Fokker-Planck方程式によって支配される拡散時間進化としてビデオフレームの注意を定式化して流体力学の視点を採用する。
16のベンチマークでの大規模な実験により、AAMは様々なシナリオで平均6\%の最先端メソッドを一貫して上回り、ビデオ推論では約4$\times$スピードアップを達成した。
これらの結果から,AAMは今後の注意・衛生関連課題研究の基盤となることが示唆された。
データセットとコードはhttps://github.com/wz-zhao/Attend-to-Anything.comで公開される。
関連論文リスト
- MotuBrain: An Advanced World Action Model for Robot Control [23.733029557644354]
We present MotuBrain, a unified World Action Model that jointly model video and action under a UniDiffuser formulation。
単一のモデルは、ポリシー学習、世界モデリング、ビデオ生成、逆ダイナミクス、共同ビデオアクション予測をサポートする。
Motus上に構築されているMotuBrainは、言語と相互作用の結合を強くするための独立したテキストストリームである、統一されたマルチビューモデリングも導入している。
我々の推論スタックは、ステップの削減、コンパイル、FP8量子化、DiTキャッシュ、V2Aスタイルのアクション専用推論、リアルタイムチャンククループ実行を組み合わせたものです。
論文 参考訳(メタデータ) (2026-04-30T12:34:44Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。