論文の概要: A Pattern to Align Them All: Integrating Different Modalities to Define Multi-Modal Entities
- arxiv url: http://arxiv.org/abs/2410.13803v1
- Date: Thu, 17 Oct 2024 17:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:55.760105
- Title: A Pattern to Align Them All: Integrating Different Modalities to Define Multi-Modal Entities
- Title(参考訳): さまざまなモダリティを統合してマルチモーダルなエンティティを定義できるパターン
- Authors: Gianluca Apriceno, Valentina Tamma, Tania Bailoni, Jacopo de Berardinis, Mauro Dragoni,
- Abstract要約: マルチモーダル知識グラフは、エンティティと可能なモーダル表現を関連付けることによって、従来の知識グラフを拡張する。
本稿では,エンティティとそれが伝達する情報との間の関心事の分離を捉える新しいデザインパターンを提案する。
- 参考スコア(独自算出の注目度): 2.806682991652085
- License:
- Abstract: The ability to reason with and integrate different sensory inputs is the foundation underpinning human intelligence and it is the reason for the growing interest in modelling multi-modal information within Knowledge Graphs. Multi-Modal Knowledge Graphs extend traditional Knowledge Graphs by associating an entity with its possible modal representations, including text, images, audio, and videos, all of which are used to convey the semantics of the entity. Despite the increasing attention that Multi-Modal Knowledge Graphs have received, there is a lack of consensus about the definitions and modelling of modalities, whose definition is often determined by application domains. In this paper, we propose a novel ontology design pattern that captures the separation of concerns between an entity (and the information it conveys), whose semantics can have different manifestations across different media, and its realisation in terms of a physical information entity. By introducing this abstract model, we aim to facilitate the harmonisation and integration of different existing multi-modal ontologies which is crucial for many intelligent applications across different domains spanning from medicine to digital humanities.
- Abstract(参考訳): 異なる感覚入力を推論し統合する能力は、人間の知性を支える基盤であり、知識グラフ内のマルチモーダル情報のモデリングへの関心が高まっている理由である。
マルチモーダル知識グラフは、エンティティのセマンティクスを伝えるために使用されるテキスト、画像、オーディオ、ビデオを含む、可能なモーダル表現とエンティティを関連付けることによって、従来の知識グラフを拡張する。
マルチモーダル知識グラフが注目されているにもかかわらず、モダリティの定義とモデリングについて合意が得られておらず、その定義はアプリケーションドメインによってしばしば決定される。
本稿では,異なるメディア間でセマンティクスが異なる表現をすることができるエンティティ(およびそれが伝達する情報)間の関心の分離と,物理的情報エンティティの観点からその実現を捉える,新しいオントロジーデザインパターンを提案する。
この抽象モデルを導入することで、医学からデジタル人文科学まで、さまざまな領域にわたる多くのインテリジェントなアプリケーションにとって重要な、既存のマルチモーダルオントロジーの調和と統合を促進することを目指している。
関連論文リスト
- Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ
我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文 参考訳(メタデータ) (2024-07-08T01:06:13Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Geometric multimodal representation learning [13.159512679346687]
マルチモーダル学習手法は、複数のデータモダリティを融合し、この課題に対処する。
この分類に基づいてマルチモーダルグラフ学習のためのアルゴリズム的青写真を作成する。
この取り組みは、高度に複雑な実世界の問題に対して洗練されたマルチモーダルアーキテクチャの設計を標準化する道を開くことができる。
論文 参考訳(メタデータ) (2022-09-07T16:59:03Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z) - End-to-End Entity Classification on Multimodal Knowledge Graphs [0.0]
本稿では,グラフ構造からエンドツーエンドを学習するマルチモーダルメッセージパッシングネットワークを提案する。
我々のモデルは、専用(神経)エンコーダを使用して、5種類のモードに属するノードの特徴の埋め込みを自然に学習する。
私たちの結果は、複数のモダリティからの情報を含めることで、モデル全体のパフォーマンスが向上する、という私たちの仮説を支持します。
論文 参考訳(メタデータ) (2020-03-25T14:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。