論文の概要: Just Noticeable Visual Redundancy Forecasting: A Deep Multimodal-driven
Approach
- arxiv url: http://arxiv.org/abs/2303.10372v1
- Date: Sat, 18 Mar 2023 09:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:45:23.938740
- Title: Just Noticeable Visual Redundancy Forecasting: A Deep Multimodal-driven
Approach
- Title(参考訳): 視覚的冗長性予測: 深いマルチモーダル駆動アプローチ
- Authors: Wuyuan Xie, Shukang Wang, Sukun Tian, Lirong Huang, Ye Liu, Miaohui
Wang
- Abstract要約: JND(Just noticeable difference)とは、人間の目が知覚できない最大の視覚変化を指す用語である。
本稿では,JNDモデリングをエンドツーエンドのマルチモーダル,すなわちhmJND-Netの観点から検討する。
- 参考スコア(独自算出の注目度): 11.600496805298778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Just noticeable difference (JND) refers to the maximum visual change that
human eyes cannot perceive, and it has a wide range of applications in
multimedia systems. However, most existing JND approaches only focus on a
single modality, and rarely consider the complementary effects of multimodal
information. In this article, we investigate the JND modeling from an
end-to-end homologous multimodal perspective, namely hmJND-Net. Specifically,
we explore three important visually sensitive modalities, including saliency,
depth, and segmentation. To better utilize homologous multimodal information,
we establish an effective fusion method via summation enhancement and
subtractive offset, and align homologous multimodal features based on a
self-attention driven encoder-decoder paradigm. Extensive experimental results
on eight different benchmark datasets validate the superiority of our hmJND-Net
over eight representative methods.
- Abstract(参考訳): Just noticeable difference (JND) とは、人間の目では認識できない最大の視覚変化であり、マルチメディアシステムにおいて幅広い応用がある。
しかし、既存のJNDアプローチのほとんどは単一のモダリティにのみ焦点をあてており、マルチモーダル情報の相補的効果を考えることは滅多にない。
本稿では、JNDモデリングをエンドツーエンドのホモロジー・マルチモーダル・パースペクティブ、すなわちhmJND-Netから検討する。
具体的には,視覚に敏感な3つの重要なモダリティを探索する。
ホモロジカルなマルチモーダル情報をよりよく活用するために,要約エンハンスメントと減算オフセットによる効果的な融合法を確立し,自己アテンション駆動型エンコーダデコーダパラダイムに基づいてホモロジカルなマルチモーダル特徴を整列する。
8つのベンチマークデータセットの大規模な実験結果から, hmJND-Netの8つの代表的手法に対する優位性を検証した。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Alternative Telescopic Displacement: An Efficient Multimodal Alignment
Method [2.4754083311339454]
マルチモーダル情報を完全に融合する特徴アライメント手法を提案する。
提案手法は,異なるモダリティの特徴間の高レベル相互作用を強固に捉えることができる。
論文 参考訳(メタデータ) (2023-06-29T13:49:06Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。