論文の概要: Neural Attentive Multiview Machines
- arxiv url: http://arxiv.org/abs/2002.07696v1
- Date: Tue, 18 Feb 2020 16:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 19:52:13.248662
- Title: Neural Attentive Multiview Machines
- Title(参考訳): 神経注意型マルチビューマシン
- Authors: Oren Barkan, Ori Katz, Noam Koenigstein
- Abstract要約: マルチビュー項目表現と類似性を学習するニューラル・アテンタティブ・マルチビュー・マシンであるNAMを紹介する。
NAMは複数の情報ソースを利用し、教師付きタスクに対する関連性を自動的に定量化する。
評価の結果、NAMはアイテムレコメンデーションタスクにおいて、単一のビューモデルと代替のマルチビューメソッドよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 26.10163142236964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important problem in multiview representation learning is finding the
optimal combination of views with respect to the specific task at hand. To this
end, we introduce NAM: a Neural Attentive Multiview machine that learns
multiview item representations and similarity by employing a novel attention
mechanism. NAM harnesses multiple information sources and automatically
quantifies their relevancy with respect to a supervised task. Finally, a very
practical advantage of NAM is its robustness to the case of dataset with
missing views. We demonstrate the effectiveness of NAM for the task of movies
and app recommendations. Our evaluations indicate that NAM outperforms single
view models as well as alternative multiview methods on item recommendations
tasks, including cold-start scenarios.
- Abstract(参考訳): マルチビュー表現学習における重要な問題は、目前にある特定のタスクに対するビューの最適な組み合わせを見つけることである。
そこで我々は,新しいアテンション機構を用いて,マルチビュー項目の表現と類似性を学習するニューラル・アテンタティブ・マルチビュー・マシンであるNAMを紹介する。
NAMは複数の情報ソースを利用し、教師付きタスクに対する関連性を自動的に定量化する。
最後に、NAMの非常に実用的な利点は、ビューの欠如したデータセットに対する堅牢性である。
映画やアプリレコメンデーションのタスクにおけるNAMの有効性を実証する。
評価の結果,namは,コールドスタートシナリオを含むアイテムレコメンデーションタスクにおいて,単一ビューモデルや代替マルチビューメソッドよりも優れていた。
関連論文リスト
- Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning [29.33199582163445]
ビジョン・ファンデーション・モデル (VFM) は、多くの下流タスクにおいて卓越した性能を示した。
それら固有の表現バイアスのため、VFMは異なる視覚タスクにまたがる利点と欠点を示す。
本稿では,VFM 委員会からの知識を適応的に蒸留し,マルチタスク学習を強化する,新規で汎用性の高い "Swiss Army Knife" (SAK) ソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:32:39Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Multi-task View Synthesis with Neural Radiance Fields [43.88570079819157]
MuvieNeRFはマルチタスクとクロスビューの両方の知識を組み込んで複数のシーン特性を同時に合成するフレームワークである。
以上の結果から, MuvieNeRFは様々なNeRFバックボーンに普遍的な適用性を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-29T17:58:27Z) - Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios [35.32285779434823]
マルチビュークラスタリング(MVC)は,マルチビューデータのカテゴリ構造を自己管理的に探索することを目的としている。
ノイズの多いビューは、実際のマルチビューシナリオでビューがノイズの多いときに、深刻な縮退する可能性がある。
この問題に対処するために理論的に基礎をおくディープMVC法(別名MVCAN)を提案する。
論文 参考訳(メタデータ) (2023-03-30T09:22:17Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。